Zoom 宣称拿下 AI 最难考试高分,争议却随之而来

Zoom 宣称拿下 AI 最难考试高分,争议却随之而来

2025 年 12 月 16 日,以疫情期间助力远程办公闻名的 Zoom 视频通讯公司宣布,其 AI 系统在被称为 “人类终极考试”(Humanity’s Last Exam,HLE)的 AI 基准测试中取得 48.1% 的成绩,刷新该测试纪录,超过此前谷歌 Gemini 3 Pro 保持的 45.8% 的纪录。这一消息在科技行业引发惊讶、质疑与好奇 —— 一家此前无公开大语言模型训练历史的视频会议公司,为何能突然超越 OpenAI、谷歌、Anthropic 等 AI 巨头,在衡量机器智能前沿水平的测试中拔得头筹?

事实上,Zoom 并未自主训练大语言模型,而是采用了 “联邦 AI 方法”:搭建系统将用户查询分配给 OpenAI、谷歌、Anthropic 等现有模型,再通过专有软件筛选、整合并优化这些模型的输出。该系统的核心是 “Z 评分器”(Z-scorer),可评估不同模型的响应并为特定任务选择最优结果,搭配 “探索 – 验证 – 联邦策略” 这一智能体工作流,平衡多 AI 系统的探索性推理与验证环节。用通俗的话来说,Zoom 打造的并非 AI 本身,而是一套复杂的 AI “交通调度系统”,通过巧妙整合现有模型能力实现性能突破,而非像主流 AI 实验室那样投入数亿美元在大型计算集群上训练前沿系统。

这一做法在 AI 领域引发截然不同的评价。支持方认为,整合多模型是行业最佳实践,类似数据科学竞赛平台 Kaggle 上获胜团队常用的集成方法,且学术研究早已证实集成模型通常优于单一模型。开发者洪成柱(Hongcheng Zhu)便表示,要在 AI 评估中名列前茅,很可能需要像 Zoom 这样的模型联邦策略。但批评声同样尖锐,AI 工程师马克斯・伦普夫(Max Rumpf)指出,Zoom 不过是将 Gemini、GPT、Claude 等模型的 API 调用串联起来,在对客户无实际价值的基准测试上小幅提升,却宣称取得 “最先进成果”,且刻意模糊 “未自主训练模型” 这一事实,有侵占他人成果之嫌。另有质疑聚焦 Zoom 的优先级,伦普夫认为,Zoom 用户更关心会议记录检索等实际问题,而非在 HLE 这类基准测试中夺冠,Zoom 应将资源投入到解决用户真实需求上。

从 Zoom 的技术团队背景来看,其首席技术官黄学东(Xuedong Huang)曾在微软任职数十年,主导构建微软 AI 能力,在语音识别、机器翻译等领域实现 “人机 parity(性能相当)”,拥有深厚的 AI 技术积淀与行业地位。黄学东强调,Zoom 的突破在于 “超越单一模型的性能极限”,并非打造更优模型,而是构建更高效的模型使用系统,这也暗示了 Zoom 在 AI 领域的战略方向 —— 不执着于模型本身,而是聚焦模型整合与应用。

此次引发争议的 HLE 测试,本身以高难度著称,与依赖模式匹配的早期测试不同,它要求 AI 具备真正的理解能力、多步骤推理能力及跨复杂领域的信息整合能力,题目涵盖高等数学、哲学、专业科学知识等,由全球领域专家出题。在该测试中,48.1% 的成绩虽看似不高,却是当前机器性能的上限;Zoom 较谷歌此前纪录提升的 2.3 个百分点,在竞争激烈的基准测试中(通常以零点几个百分点的增幅突破),已属显著进步。

Zoom 的做法也折射出企业 AI 未来的一种发展方向:与 OpenAI、谷歌等 “以模型为核心” 的策略不同,Zoom 选择成为 “编排层”,整合多家供应商的最优能力,通过企业已广泛使用的产品交付给用户。这种策略可规避 AI 市场的核心不确定性 —— 无人能预知未来哪款模型会领先,而可灵活切换模型的基础设施,既能避免供应商锁定,又能理论上为用户提供适配特定任务的最优 AI。值得注意的是,在 Zoom 宣布成绩次日,OpenAI 发布 GPT-5.2 时提及 Zoom 是合作伙伴,且 Zoom 在评估新模型性能后发现全流程均有显著提升,这意味着 Zoom 既是前沿 AI 实验室的客户,又借助这些实验室的技术在基准测试中与之竞争,形成独特的合作竞争关系。

不过,这一模式的可持续性仍存疑问:一方面,主流模型供应商虽有动力广泛出售 API 权限(即便对整合其输出的企业),但 Zoom 的编排能力是否属于真正的知识产权,还是易被复制的复杂提示工程,尚未有定论;另一方面,市场最终的评判标准将落到产品体验上。未来数月,Zoom 的 AI 助手(AI Companion 3.0)将面向其 3 亿用户推出,用户将根据会议摘要是否精准、行动项是否合理、能否节省时间等实际体验给出评价,而非关注 HLE 测试成绩。

归根结底,Zoom 此次引发的最大争议或许并非 “是否在基准测试中作弊”,而是其隐含的观点 —— 在 AI 时代,最佳 “模型” 未必是自主构建的,而是懂得如何高效利用现有模型的系统。这场争论的本质,也反映出 AI 行业对 “创新” 定义的分歧:是自主突破核心技术,还是通过整合实现价值最大化?而这一分歧的答案,或将随着企业 AI 的落地进程逐渐清晰。

结合补充信息来看,Zoom 的 “联邦 AI 方法” 与分布式数据集、联邦学习的理念存在一定关联 —— 均强调在不依赖单一中心、不重复构建基础能力的前提下,通过协同机制挖掘价值,但 Zoom 更侧重模型层面的整合,而非数据层面的联邦协作。同时,Zoom 此前面临数据安全争议与增长压力(2025 年股价近乎腰斩,市场对其增长前景存疑),此次在 AI 领域的高调发声,或也有提振市场信心、寻找新增长曲线的考量,但其能否通过 AI 功能切实解决用户需求(如会议智能纪要、高效检索),仍需后续产品落地验证。

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/zoom-xuan-cheng-na-xia-ai-zui-nan-kao-shi-gao-fen-zheng-yi

Like (0)
王 浩然的头像王 浩然作者
Previous 2025年12月20日
Next 2025年12月21日

相关推荐

发表回复

Please Login to Comment