Zoom 宣称拿下 AI 最难考试高分，争议却随之而来

王浩然 • 2025年12月21日上午10:00 • AI前沿 • 605 views

2025 年 12 月 16 日，以疫情期间助力远程办公闻名的 Zoom 视频通讯公司宣布，其 AI 系统在被称为 “人类终极考试”（Humanity’s Last Exam，HLE）的 AI 基准测试中取得 48.1% 的成绩，刷新该测试纪录，超过此前谷歌 Gemini 3 Pro 保持的 45.8% 的纪录。这一消息在科技行业引发惊讶、质疑与好奇 —— 一家此前无公开大语言模型训练历史的视频会议公司，为何能突然超越 OpenAI、谷歌、Anthropic 等 AI 巨头，在衡量机器智能前沿水平的测试中拔得头筹？

事实上，Zoom 并未自主训练大语言模型，而是采用了 “联邦 AI 方法”：搭建系统将用户查询分配给 OpenAI、谷歌、Anthropic 等现有模型，再通过专有软件筛选、整合并优化这些模型的输出。该系统的核心是 “Z 评分器”（Z-scorer），可评估不同模型的响应并为特定任务选择最优结果，搭配 “探索 – 验证 – 联邦策略” 这一智能体工作流，平衡多 AI 系统的探索性推理与验证环节。用通俗的话来说，Zoom 打造的并非 AI 本身，而是一套复杂的 AI “交通调度系统”，通过巧妙整合现有模型能力实现性能突破，而非像主流 AI 实验室那样投入数亿美元在大型计算集群上训练前沿系统。

这一做法在 AI 领域引发截然不同的评价。支持方认为，整合多模型是行业最佳实践，类似数据科学竞赛平台 Kaggle 上获胜团队常用的集成方法，且学术研究早已证实集成模型通常优于单一模型。开发者洪成柱（Hongcheng Zhu）便表示，要在 AI 评估中名列前茅，很可能需要像 Zoom 这样的模型联邦策略。但批评声同样尖锐，AI 工程师马克斯・伦普夫（Max Rumpf）指出，Zoom 不过是将 Gemini、GPT、Claude 等模型的 API 调用串联起来，在对客户无实际价值的基准测试上小幅提升，却宣称取得 “最先进成果”，且刻意模糊 “未自主训练模型” 这一事实，有侵占他人成果之嫌。另有质疑聚焦 Zoom 的优先级，伦普夫认为，Zoom 用户更关心会议记录检索等实际问题，而非在 HLE 这类基准测试中夺冠，Zoom 应将资源投入到解决用户真实需求上。

从 Zoom 的技术团队背景来看，其首席技术官黄学东（Xuedong Huang）曾在微软任职数十年，主导构建微软 AI 能力，在语音识别、机器翻译等领域实现 “人机 parity（性能相当）”，拥有深厚的 AI 技术积淀与行业地位。黄学东强调，Zoom 的突破在于 “超越单一模型的性能极限”，并非打造更优模型，而是构建更高效的模型使用系统，这也暗示了 Zoom 在 AI 领域的战略方向 —— 不执着于模型本身，而是聚焦模型整合与应用。

此次引发争议的 HLE 测试，本身以高难度著称，与依赖模式匹配的早期测试不同，它要求 AI 具备真正的理解能力、多步骤推理能力及跨复杂领域的信息整合能力，题目涵盖高等数学、哲学、专业科学知识等，由全球领域专家出题。在该测试中，48.1% 的成绩虽看似不高，却是当前机器性能的上限；Zoom 较谷歌此前纪录提升的 2.3 个百分点，在竞争激烈的基准测试中（通常以零点几个百分点的增幅突破），已属显著进步。

Zoom 的做法也折射出企业 AI 未来的一种发展方向：与 OpenAI、谷歌等 “以模型为核心” 的策略不同，Zoom 选择成为 “编排层”，整合多家供应商的最优能力，通过企业已广泛使用的产品交付给用户。这种策略可规避 AI 市场的核心不确定性 —— 无人能预知未来哪款模型会领先，而可灵活切换模型的基础设施，既能避免供应商锁定，又能理论上为用户提供适配特定任务的最优 AI。值得注意的是，在 Zoom 宣布成绩次日，OpenAI 发布 GPT-5.2 时提及 Zoom 是合作伙伴，且 Zoom 在评估新模型性能后发现全流程均有显著提升，这意味着 Zoom 既是前沿 AI 实验室的客户，又借助这些实验室的技术在基准测试中与之竞争，形成独特的合作竞争关系。

不过，这一模式的可持续性仍存疑问：一方面，主流模型供应商虽有动力广泛出售 API 权限（即便对整合其输出的企业），但 Zoom 的编排能力是否属于真正的知识产权，还是易被复制的复杂提示工程，尚未有定论；另一方面，市场最终的评判标准将落到产品体验上。未来数月，Zoom 的 AI 助手（AI Companion 3.0）将面向其 3 亿用户推出，用户将根据会议摘要是否精准、行动项是否合理、能否节省时间等实际体验给出评价，而非关注 HLE 测试成绩。

归根结底，Zoom 此次引发的最大争议或许并非 “是否在基准测试中作弊”，而是其隐含的观点 —— 在 AI 时代，最佳 “模型” 未必是自主构建的，而是懂得如何高效利用现有模型的系统。这场争论的本质，也反映出 AI 行业对 “创新” 定义的分歧：是自主突破核心技术，还是通过整合实现价值最大化？而这一分歧的答案，或将随着企业 AI 的落地进程逐渐清晰。

结合补充信息来看，Zoom 的 “联邦 AI 方法” 与分布式数据集、联邦学习的理念存在一定关联 —— 均强调在不依赖单一中心、不重复构建基础能力的前提下，通过协同机制挖掘价值，但 Zoom 更侧重模型层面的整合，而非数据层面的联邦协作。同时，Zoom 此前面临数据安全争议与增长压力（2025 年股价近乎腰斩，市场对其增长前景存疑），此次在 AI 领域的高调发声，或也有提振市场信心、寻找新增长曲线的考量，但其能否通过 AI 功能切实解决用户需求（如会议智能纪要、高效检索），仍需后续产品落地验证。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/zoom-xuan-cheng-na-xia-ai-zui-nan-kao-shi-gao-fen-zheng-yi

AI 争议 AI 基准测试 Zoom 人类终极考试 (HLE)企业 AI 战略模型整合联邦 AI 方法

Like (0)

王浩然作者

0 0

黑箱 AI 已不足够：企业咨询转向基础模型的原因与实践

Previous 2025年12月20日

沃尔玛 AI 战略：聚焦实用场景的数智化转型实践与挑战

Next 2025年12月21日

AI前沿

Connectly 现已获得阿里巴巴的支持，利用人工智能向客户提供个性化短信

Stefanos Loukakos 曾担任 Meta 的商业 Messenger 部门主管，并曾短暂担任该科技巨头区块链组织的主管。几年前，他注意到在线零售商很难与潜在购物者建立…

王浩然
2024年9月13日
000
AI前沿

DeepSeek宣称其理论利润率可高达545%‌

DeepSeek，一家专注于数据分析和人工智能技术的创新企业，近日公布了一项重大技术进展。该公司声称，其最新的解决方案能够实现高达545%的理论利润率，这一惊人数字在行业内引起了广…

王浩然
2025年3月3日
000
AI前沿

前谷歌、苹果工程师无条件开源 Oumi AI 平台，或将助力打造下一个 DeepSeek

如果之前还不清楚，那么现在肯定非常清楚：开源对人工智能确实很重要。DeepSeek -R1的成功实质上证明了对开源人工智能的需求。但开源 AI 究竟是什么？对于 Meta 及其L…

王浩然
2025年2月4日
000
AI前沿

Mistral发布Le Chat Enterprise，以Medium 3模型为企业AI客户带来革新

在人工智能（AI）技术日新月异的今天，法国AI初创公司Mistral以其最新推出的Le Chat Enterprise平台，向企业AI市场发起了强有力的冲击。该平台搭载全新的Med…

王浩然
2025年5月9日
000
AI前沿

如何利用生成工具推动 Glean 筹集 2.6 亿美元：GraphRAG

当创新型企业搜索公司 Glean 的销售代表需要为一次重要的客户会议做准备时，他们求助于自己强大的生成式 AI工具。几分钟之内，系统就梳理了多年的电子邮件、Slack 消息和通话录…

王浩然
2024年9月15日
000
AI前沿

“稻草人”问题：如何克服人工智能的局限性

到目前为止，像ChatGPT和Claude这样的大型语言模型（LLM）已经成为全球的一个日常词。许多人开始担心人工智能正在为他们工作，因此看到几乎所有基于法学硕士的系统都在一项直接…

点点
2024年10月14日
000
AI前沿

医学教育的AI飞跃：代理式检索增强生成（RAG）、开放权重大型语言模型（LLMs）和实时病例洞察如何塑造纽约大学朗格尼医学中心的新一代医生

病人数据记录往往复杂且有时不完整，这意味着医生并不总能立即获得所需的所有信息。此外，医学专业人士无法跟上行业内涌现的大量病例研究、研究论文、试验和其他前沿发展。位于纽约市的纽约大学…

王浩然
2025年2月22日
000
AI前沿

研究表明，人工智能模型在用西班牙语提问时错误率更高

人工智能模型很难用西班牙语准确回答与选举相关的问题。这是AI Democracy Projects 的一项新研究得出的结论，该项目是 Proof News、事实核查服务 Fact…

王浩然
2024年10月31日
000
AI前沿

2026年AI代理市场：从狂热到务实，在风险与机遇中寻找破局之道

当AI大模型的热度逐渐褪去，曾经被寄予厚望的AI代理（AI Agents）正在经历从狂热到理性的市场转向。根据行业数据，AI代理市场规模已从70亿美元增长至近100亿美元，看似蓬勃…

王浩然
2026年3月7日
000
AI前沿

人工智能数据中心可能会“扭曲”美国电网

彭博社的一份新报告称，为满足人工智能计算需求而激增的数据中心可能对美国电网来说是个坏消息。彭博社利用 Whisker Labs 追踪的 100 万个住宅传感器以及 DC Byte…

王浩然
2024年12月30日
000
AI前沿

AI助力跟踪骚扰？ChatGPT被指加剧用户妄想，受害者起诉OpenAI

当人工智能的便捷性与现实中的人身安全发生碰撞，一场关于AI伦理与责任的法律风暴正在酝酿。近日，一位化名为Jane Doe的硅谷女性正式对OpenAI提起诉讼，指控该公司旗下的Cha…

王浩然
2026年4月14日
000
AI前沿

亚马逊通过 AI 视频搜索改进 Ring 订阅服务

亚马逊正在改进其 Ring 视频门铃和摄像头的订阅服务。一项名为 Ring Home Premium 的新服务将包括全天候录制和人工智能视频搜索等功能，起价为每月 19.99 美…

王浩然
2024年10月10日
000
AI前沿

2024 年证明控制人工智能是可能的

今年几乎所有的人工智能重大新闻都是关于该技术发展速度有多快、它造成的危害，以及关于它多久会发展到人类无法控制的程度的猜测。但 2024 年，各国政府也在监管算法系统方面取得了重大进…

王浩然
2024年12月26日
000
AI前沿

智能体 AI（Agentic AI）的崛起及其核心支撑架构

过去数年人工智能领域的进步多依赖 “规模扩张”—— 更大的模型、更庞大的数据集，但随着 2026 年临近，这种模式已显现边际效益递减：模型参数持续增加、演示视频愈发炫酷，却难以转化…

王浩然
2025年11月29日
000
AI前沿

Google AMIE：AI“医生”学会解读医疗影像

在医疗领域，人工智能（AI）正逐渐展现出其巨大的潜力。近日，Google推出的AMIE项目再次刷新了我们对AI在医疗影像解读方面的认知。这一创新技术，被誉为AI“医生”，正在学习如…

王浩然
2025年5月11日
000
AI前沿

‌AI代码生成革命：企业软件开发模式的重构与挑战‌

全球企业软件开发领域正在经历一场由AI代码生成工具引发的生产力革命。根据VentureBeat最新调研数据，2025年企业代码库中AI生成代码占比已达43%，较2022年增长17倍…

王浩然
2025年9月18日
000
AI前沿

ISO 42001 认证：筑牢 AI 治理信任基石，驱动负责任创新

在人工智能以前所未有的速度重塑现代商业模式的背景下，企业对 AI 的依赖日益加深 —— 从依托 AI 获取更快洞察、提升运营效率，到借助 AI 构建竞争优势，AI 已成为企业发展的…

王浩然
2025年10月25日
000
AI前沿

Diligent Robotics强化领导团队，引入两名Cruise前高管

Diligent Robotics，这家专注于研发在医院和药店工作的人形机器人的公司，近日宣布对其领导团队进行重要扩充。公司任命Rashed Haq为首席技术官（CTO），Todd…

王浩然
2025年7月13日
000
AI前沿

Mistral Small 3 将开源 AI 带给大众——更小、更快、更便宜

迅速崛起的欧洲人工智能初创公司Mistral AI今天推出了一种新的语言模型，该公司声称该模型的性能可与三倍于其规模的模型相媲美，同时大幅降低计算成本——这一进展可能会重塑先进人工…

王浩然
2025年2月2日
000
AI前沿

Google Gemini集成Lyria 3：用文字、图片甚至视频生成AI音乐

在AI内容生成的赛道上，Google Gemini又迈出了新的一步。2026年2月18日，Google Gemini官方宣布推出由DeepMind开发的Lyria 3音乐生成模型，…

王浩然
2026年2月20日
000

发表回复

Please Login to Comment

Zoom 宣称拿下 AI 最难考试高分，争议却随之而来

相关推荐

发表回复