日本Sakana AI推出TreeQuest:多模型团队协作,效能超越单体大型语言模型30%‌

日本Sakana AI推出TreeQuest:多模型团队协作,效能超越单体大型语言模型30%‌

在人工智能领域,团队合作的力量正逐渐显现其无与伦比的优势。日本Sakana AI实验室最近推出了一项名为TreeQuest的创新技术,该技术能够让多个大型语言模型(LLM)在同一任务上协同工作,形成一支“梦之队”,其整体表现较任何单一模型提升高达30%。这一突破性的进展为企业构建更加强大和高效的AI系统提供了全新的途径。

多模型协作:集思广益的新篇章

随着前沿AI模型的迅速发展,每个模型都因其独特的训练数据和架构而展现出不同的优势和局限。有的模型在编程方面出类拔萃,而有的则在创意写作上独占鳌头。Sakana AI的研究人员认为,这些差异并非缺陷,而是构建集体智能的宝贵资源。他们坚信,正如人类历史上最伟大的成就往往源自多元化的团队,AI系统通过合作同样能够取得更为卓越的成果。

TreeQuest技术正是基于这一理念而生。它利用一种名为Multi-LLM AB-MCTS(多模型自适应分支蒙特卡洛树搜索)的新算法,使模型能够在试错过程中发挥各自的长处,共同解决那些对单一模型而言过于复杂的问题。这意味着企业不再受限于某个特定的提供商或模型,而是能够根据需要动态地利用不同前沿模型的最佳特性,以实现更出色的任务执行效果。

智能决策:AB-MCTS的核心机制

AB-MCTS算法的核心在于其智能决策的能力。它能够在“深入搜索”和“广泛搜索”之间做出平衡。深入搜索意味着对一个有前景的答案进行反复精炼,而广泛搜索则是从头开始生成全新的解决方案。AB-MCTS结合了这两种方法,使得系统既能够改进已有想法,又能够在遇到死胡同或发现新方向时灵活调整策略。

在这一过程中,系统使用蒙特卡洛树搜索(MCTS)这一著名的决策制定算法,该算法曾由DeepMind的AlphaGo所采用。在每一步中,AB-MCTS都会利用概率模型来决定是继续精炼现有解决方案还是生成新的解决方案。更进一步的是,Multi-LLM AB-MCTS不仅能够决定“做什么”,还能决定“由哪个模型来做”。在任务开始时,系统并不清楚哪个模型最适合当前问题。因此,它会尝试一个平衡的模型组合,并随着任务的进展,学习哪些模型更有效,从而逐渐将更多工作量分配给它们。

实战检验:超越单体的卓越表现

为了验证Multi-LLM AB-MCTS系统的有效性,Sakana AI的研究人员将其应用在了ARC-AGI-2基准测试上。ARC(抽象与推理语料库)旨在测试人类般的解决新颖视觉推理问题的能力,这对AI而言极为困难。研究团队结合使用了包括o4-mini、Gemini 2.5 Pro和DeepSeek-R1在内的前沿模型。这一模型组合成功解决了120个测试问题中的超过30%,这一成绩显著优于任何单一模型的表现。

更令人印象深刻的是,研究人员观察到了模型们共同解决了之前对任何单一模型而言都是不可能的问题的情况。在一个案例中,o4-mini模型生成了一个错误的解决方案。然而,系统将这一错误的尝试传递给了DeepSeek-R1和Gemini-2.5 Pro,这两个模型能够分析错误、纠正它,并最终得出正确答案。这充分展示了Multi-LLM AB-MCTS能够灵活地结合前沿模型,以解决之前无法解决的问题,从而推动AI能力的边界。

从研究到实践:TreeQuest的广泛应用

为了帮助开发者和企业应用这一技术,Sakana AI已经将AB-MCTS算法作为名为TreeQuest的开源框架发布,该框架遵循Apache 2.0许可协议(可用于商业目的)。TreeQuest提供了一个灵活的API,允许用户为自己的任务实施Multi-LLM AB-MCTS,并自定义评分和逻辑。

虽然AB-MCTS在特定业务导向问题上的应用仍处于早期阶段,但研究表明它在多个领域具有巨大潜力。除了ARC-AGI-2基准测试外,研究团队还成功地将AB-MCTS应用于复杂算法编码和提高机器学习模型准确性等任务。此外,AB-MCTS对于需要迭代试错的问题也极为有效,例如优化现有软件的性能指标。它可以自动寻找提高网络服务响应延迟的方法。

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/ri-ben-sakana-ai-tui-chu-treequest-duo-mo-xing-tuan-dui-xie

Like (0)
王 浩然的头像王 浩然作者
Previous 2025年7月7日
Next 2025年7月8日

相关推荐

发表回复

Please Login to Comment