AI基准测试

AI前沿

AI基准测试平台Arena：获头部AI企业投资，却称“无法被操控”的行业标尺

在AI大模型爆发式增长的当下，市场上的玩家越来越多，竞争也日趋白热化。面对琳琅满目的大模型产品，究竟谁才是行业最优？又该由谁来定义“最优”？在这样的行业背景下，曾经名为LM Are…

王浩然
2026年3月23日
000
AI前沿

从伯克利博士项目到百亿估值：Arena如何成为AI行业的“隐形裁判”

当AI模型如雨后春笋般涌现，行业竞争愈发白热化，一个尖锐的问题摆在所有人面前：谁来定义“最好的AI”？在这个玩家云集的赛道上，一个名为Arena的平台悄然崛起，从加州大学伯克利分校…

王浩然
2026年3月23日
000
AI前沿

AI基准测试平台Chatbot Arena成立新公司

在人工智能领域，随着技术的不断进步和应用场景的日益拓展，各类创新平台应运而生。近日，备受瞩目的AI基准测试平台Chatbot Arena宣布成立一家新公司，旨在进一步提升AI技术的…

王浩然
2025年4月20日
000
AI前沿

OpenAI发布o3和o4-mini：能“用图像思考”并自主使用工具的AI模型

OpenAI近日宣布推出两款具有革命性意义的AI模型——o3和o4-mini，这些模型不仅能够通过图像进行推理，还能自主使用各种工具，标志着人工智能能力的一大步飞跃。这两款模型是O…

王浩然
2025年4月18日
000
AI前沿

超级马里奥成AI新基准测试工具‌

近年来，人工智能（AI）领域的发展日新月异，各类基准测试工具层出不穷，用于评估AI模型的性能。而近日，一个令人意想不到的角色——超级马里奥，竟也加入了这一行列，成为衡量AI能力的新…

王浩然
2025年3月5日
000