日本Sakana AI推出TreeQuest：多模型团队协作，效能超越单体大型语言模型30%‌

王浩然 • 2025年7月8日上午8:00 • AI前沿 • 236 views

在人工智能领域，团队合作的力量正逐渐显现其无与伦比的优势。日本Sakana AI实验室最近推出了一项名为TreeQuest的创新技术，该技术能够让多个大型语言模型（LLM）在同一任务上协同工作，形成一支“梦之队”，其整体表现较任何单一模型提升高达30%。这一突破性的进展为企业构建更加强大和高效的AI系统提供了全新的途径。

多模型协作：集思广益的新篇章

随着前沿AI模型的迅速发展，每个模型都因其独特的训练数据和架构而展现出不同的优势和局限。有的模型在编程方面出类拔萃，而有的则在创意写作上独占鳌头。Sakana AI的研究人员认为，这些差异并非缺陷，而是构建集体智能的宝贵资源。他们坚信，正如人类历史上最伟大的成就往往源自多元化的团队，AI系统通过合作同样能够取得更为卓越的成果。

TreeQuest技术正是基于这一理念而生。它利用一种名为Multi-LLM AB-MCTS（多模型自适应分支蒙特卡洛树搜索）的新算法，使模型能够在试错过程中发挥各自的长处，共同解决那些对单一模型而言过于复杂的问题。这意味着企业不再受限于某个特定的提供商或模型，而是能够根据需要动态地利用不同前沿模型的最佳特性，以实现更出色的任务执行效果。

智能决策：AB-MCTS的核心机制

AB-MCTS算法的核心在于其智能决策的能力。它能够在“深入搜索”和“广泛搜索”之间做出平衡。深入搜索意味着对一个有前景的答案进行反复精炼，而广泛搜索则是从头开始生成全新的解决方案。AB-MCTS结合了这两种方法，使得系统既能够改进已有想法，又能够在遇到死胡同或发现新方向时灵活调整策略。

在这一过程中，系统使用蒙特卡洛树搜索（MCTS）这一著名的决策制定算法，该算法曾由DeepMind的AlphaGo所采用。在每一步中，AB-MCTS都会利用概率模型来决定是继续精炼现有解决方案还是生成新的解决方案。更进一步的是，Multi-LLM AB-MCTS不仅能够决定“做什么”，还能决定“由哪个模型来做”。在任务开始时，系统并不清楚哪个模型最适合当前问题。因此，它会尝试一个平衡的模型组合，并随着任务的进展，学习哪些模型更有效，从而逐渐将更多工作量分配给它们。

实战检验：超越单体的卓越表现

为了验证Multi-LLM AB-MCTS系统的有效性，Sakana AI的研究人员将其应用在了ARC-AGI-2基准测试上。ARC（抽象与推理语料库）旨在测试人类般的解决新颖视觉推理问题的能力，这对AI而言极为困难。研究团队结合使用了包括o4-mini、Gemini 2.5 Pro和DeepSeek-R1在内的前沿模型。这一模型组合成功解决了120个测试问题中的超过30%，这一成绩显著优于任何单一模型的表现。

更令人印象深刻的是，研究人员观察到了模型们共同解决了之前对任何单一模型而言都是不可能的问题的情况。在一个案例中，o4-mini模型生成了一个错误的解决方案。然而，系统将这一错误的尝试传递给了DeepSeek-R1和Gemini-2.5 Pro，这两个模型能够分析错误、纠正它，并最终得出正确答案。这充分展示了Multi-LLM AB-MCTS能够灵活地结合前沿模型，以解决之前无法解决的问题，从而推动AI能力的边界。

从研究到实践：TreeQuest的广泛应用

为了帮助开发者和企业应用这一技术，Sakana AI已经将AB-MCTS算法作为名为TreeQuest的开源框架发布，该框架遵循Apache 2.0许可协议（可用于商业目的）。TreeQuest提供了一个灵活的API，允许用户为自己的任务实施Multi-LLM AB-MCTS，并自定义评分和逻辑。

虽然AB-MCTS在特定业务导向问题上的应用仍处于早期阶段，但研究表明它在多个领域具有巨大潜力。除了ARC-AGI-2基准测试外，研究团队还成功地将AB-MCTS应用于复杂算法编码和提高机器学习模型准确性等任务。此外，AB-MCTS对于需要迭代试错的问题也极为有效，例如优化现有软件的性能指标。它可以自动寻找提高网络服务响应延迟的方法。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/ri-ben-sakana-ai-tui-chu-treequest-duo-mo-xing-tuan-dui-xie

Like (0)

王浩然作者

0 0

‌全新DeepSeek R1T2 Chimera模型问世，速度提升200%‌

Previous 2025年7月7日

数据泛滥，对齐缺失：仪表盘的问题所在与数据产品经理的必要性‌

Next 2025年7月8日

AI前沿

YouTube 可以识别你在各处看到的由人工智能制作的面孔和音乐曲目

YouTube继续在平台上涌现出大量 AI 制作的内容，并推出了一套新工具来识别视频中出现的 AI 生成的人、声音甚至音乐。新升级的内容 ID 系统从查找版权侵权扩展到查找演唱歌曲…

王浩然
2024年9月10日
000
AI前沿

Pure Storage 与 Azure：助力企业打造 AI 就绪数据基础设施

当前众多企业正致力于更新基础设施以提升效率、控制成本，但过程中常受困于混合架构、遗留系统与 AI 新需求带来的矛盾。微软（Azure）与 Pure Storage 等存储及数据平台…

王浩然
2025年11月24日
000
AI前沿

AI安全标准的边界：为何运行时防护成了必选项

当全球都在热议AI带来的安全风险时，一个关键问题却被普遍忽视：AI系统的运行逻辑，从本质上就要求暴露其最核心的资产——模型与数据。不同于传统软件仅需执行预设逻辑，AI系统需要持续将…

王浩然
2026年3月4日
000
AI前沿

英特尔联合发起面向 HBCU 的量子 AI 挑战赛，以促进创新

部分参与者将获得一台英特尔 AI PC，用于运行基于 Python 的量子模拟，并通过 AI 进行增强

点点
2024年9月27日
000
AI前沿

利用人工智能解锁医疗保健领域的新可能性

由于机器学习和人工智能的使用，美国的医疗保健正处于重大潜在颠覆的早期阶段。这种转变已经进行了十多年，但随着最近的进展，似乎将迎来更快的变化。我们仍有许多工作要做，以了解人工智能在医…

点点
2024年10月18日
000
AI前沿

Celigo CEO Jan Arendtsz：从iPaaS到AI驱动自动化，解锁企业智能化新路径

在企业数字化转型的浪潮中，集成与自动化始终是绕不开的核心议题。Celigo创始人兼CEO Jan Arendtsz凭借25年软件行业的深厚积淀，从产品开发到市场营销的全链条经验，带…

王浩然
2026年1月27日
000
AI前沿

Moveworks加入AI代理库热潮‌

随着企业对现成、可定制的AI代理需求日益增长，AI代理市场如雨后春笋般涌现。这些市场使企业能够快速启动代理用例，并为其他用例提供灵感。ServiceNow、Google、Write…

王浩然
2025年4月17日
000
AI前沿

Agentic AI：深入探究自动化的未来

超越生成式人工智能人工智能最具变革性的承诺一直是其自主潜力，即创建无需人工监督即可自行智能行动的系统。然而，到目前为止，这种“代理人工智能”对于大多数企业用例来说仍然遥不可及。 …

王浩然
2024年9月15日
000
AI前沿

Anthropic与Google赢得重要用户：OpenAI支持的Harvey转投其怀抱

在人工智能（AI）领域，竞争与合作并存，技术的迭代与用户的抉择共同推动着行业的快速发展。近日，一款备受瞩目的法律AI工具——Harvey，宣布将采用Anthropic与Google…

王浩然
2025年5月17日
000
AI前沿

中国 AI 初创企业月之暗面（Moonshot AI）：Kimi K2 Thinking 模型超越 GPT-5 与 Claude，改写全球 AI 竞争格局

总部位于北京的中国 AI 初创企业月之暗面（Moonshot AI）凭借其开源模型 Kimi K2 Thinking，在多项核心性能基准测试中超越 OpenAI 的 GPT-5 与…

王浩然
2025年11月12日
000
AI前沿

Manus或许并非中国的第二个“DeepSeek时刻”‌

近期，有关Manus的热烈讨论在中国科技界掀起了波澜，许多人将其视为继DeepSeek之后的又一里程碑事件。然而，深入剖析后不难发现，Manus可能并未达到DeepSeek那样的高…

王浩然
2025年3月11日
000
AI前沿

‌Anthropic推出AI审计代理系统应对大模型对齐挑战‌

在AI系统日益复杂的背景下，Anthropic公司近日发布突破性研究成果——三款自动化对齐审计代理，旨在解决大模型部署前的关键安全验证问题。这项创新源于对Claude Opus 4…

王浩然
2025年7月28日
000
AI前沿

DeepSeek 开源文本图像压缩模型：以 10 倍压缩率颠覆大模型上下文处理逻辑

中国 AI 研究公司 DeepSeek 于 2025 年 10 月 21 日发布开源模型 DeepSeek-OCR，该模型以 “视觉表征压缩文本” 的创新思路，打破传统大语言模型（…

王浩然
2025年10月26日
000
AI前沿

亚马逊携手AI机器人，开启仓库自动化新纪元

亚马逊与机器人软件公司Covariant签署了一项新的商业协议，包括聘用该公司的员工，以加速其仓库的自动化进程。通过新协议，亚马逊将获得 Covariant 机器人基础模型的非…

点点
2024年9月7日
000
AI前沿

OpenAI 推出高级语音模式，提供更多声音和新外观

OpenAI于周二宣布，将向 ChatGPT 的更多付费客户推出高级语音模式 (AVM)。该音频功能使 ChatGPT 的对话更加自然，将首先向 ChatGPT 的 Plus 和 …

王浩然
2024年9月25日
000
AI前沿

人工智能如何解决“鸡尾酒会问题”及其对未来音频技术的影响

想象一下，你参加一场人头攒动的活动中，周围都是声音和背景噪音，然而你却能够专心与面前的人交谈。这种在嘈杂背景中分离出特定声音的能力被称为鸡尾酒会问题，该术语由英国科学家 Colin…

点点
2024年9月26日
000
AI前沿

‌AI如何让我们丧失思考能力（与你想象的截然不同）‌

全球正陷入一场前所未有的认知危机——近10亿人在短短两年内成为AI产品的重度使用者，这种技术成瘾正在以意想不到的方式重塑人类思维模式。本文揭示AI依赖症背后的认知陷阱，并指出知识工…

王浩然
2025年7月28日
000
AI前沿

开源AI模型超越GPT-4o：创新算法实现自我幻觉纠正，数学测试成绩高达99.2分

探索开源AI模型的突破：自我纠错技术，数学测试高分，挑战传统GPT-4o。

点点
2024年9月6日
000
AI前沿

Meta推出Gaia2基准测试平台：重新定义AI智能体在真实场景中的评估标准‌

在人工智能技术快速发展的今天，如何准确评估智能体(Agent)在真实世界中的表现成为行业面临的重大挑战。Meta公司最新推出的Gaia2基准测试平台及其配套的Agent Resea…

王浩然
2025年9月28日
000
AI前沿

中国预警人形机器人市场泡沫风险：150 家企业扎堆入局，同质化问题凸显

中国国家发展和改革委员会（NDRC）罕见对国内人形机器人行业发出泡沫风险预警。这一预警打破了此前官方对该行业的积极推动基调，凸显出在行业快速扩张背后，同质化竞争、技术不成熟与商业化…

王浩然
2025年12月4日
000