新型15亿参数路由器模型实现93%准确率,无需昂贵再训练‌

新型15亿参数路由器模型实现93%准确率,无需昂贵再训练‌

在人工智能领域,随着大型语言模型(LLM)的广泛应用,如何高效地将用户查询映射到最合适的模型成为了一个关键问题。近期,Katanemo Labs的研究人员推出了一款名为Arch-Router的新型路由模型和框架,该模型能够在不经过昂贵再训练的情况下,实现高达93%的准确率。

多模型系统的挑战

随着LLM数量的增加,开发者们逐渐从单一模型设置转向多模型系统,以利用每个模型在特定任务上的独特优势。然而,这种转变也带来了新的挑战:如何智能地将用户查询路由到最适合的模型?现有的路由方法主要分为两类:基于任务的路由和基于性能的路由。前者根据预定义的任务来路由查询,但难以处理不清晰或变化的用户意图;后者则寻求成本与性能之间的最优平衡,但往往过于依赖基准分数,忽视了真实世界中的用户偏好,且难以适应新模型,除非进行昂贵的微调。

偏好对齐路由框架

为了解决这些问题,Katanemo Labs的研究人员提出了一种“偏好对齐路由”框架。该框架允许用户通过自然语言定义的“域-动作分类法”来设定路由策略,这是一个反映人们如何自然描述任务的两级层次结构,从一般主题(域)到具体任务(动作)。每个策略都与一个首选模型相关联,使得开发者能够基于实际需求而不是仅仅依赖基准分数来做出路由决策。

Arch-Router是这一框架的核心,它是一个经过精细调整的、拥有15亿参数的语言模型,专门用于偏好对齐路由。当用户查询和完整的策略集输入到Arch-Router中时,它会生成与最佳匹配策略相对应的标识符。由于策略是输入的一部分,系统可以通过上下文学习在推理时适应新的或修改后的路由,而无需重新训练模型。

高效与灵活的路由过程

Arch-Router的路由过程分为两个阶段:首先,偏好对齐路由器模型根据用户查询和所有策略选择最合适的策略;其次,一个映射函数将该选定的策略连接到其指定的LLM。由于模型选择逻辑与策略分离,只需编辑路由策略即可添加、删除或替换模型,而无需重新训练或修改路由器本身。这种解耦为模型和使用场景不断变化的实际部署提供了所需的灵活性

卓越的性能与实际应用

为了构建Arch-Router,研究人员在一个包含43,000个示例的精心策划的数据集上对Qwen 2.5模型的15亿参数版本进行了微调,并在四个用于评估对话式AI系统的公共数据集上测试了其性能。结果显示,Arch-Router在所有模型中的整体路由得分最高,达到93.17%,平均超过其他模型(包括顶级专有模型)7.71%。随着对话长度的增加,Arch-Router的优势更加明显,显示出其在多轮对话中跟踪上下文的强大能力。

Arch-Router已在多个场景中得到实际应用。例如,在开源编码工具中,开发人员使用Arch-Router将工作流程的不同阶段(如“代码设计”、“代码理解”和“代码生成”)引导到最适合每个任务的LLM。同样,企业可以将文档创建请求路由到如Claude 3.7 Sonnet这样的模型,而将图像编辑任务发送到Gemini 2.5 Pro。该系统还特别适用于各种领域的个人助理,其中用户拥有从文本摘要到事实查询的多样化任务。

未来展望

Katanemo Labs还计划将Arch-Router框架与其AI原生代理服务器Arch集成,以允许开发者实施复杂的流量整形规则。例如,在集成新LLM时,团队可以向新模型发送特定路由策略的一小部分流量,使用内部指标验证其性能,然后充满信心地完全转换流量。公司还在努力将其工具与评估平台集成,以进一步简化企业开发者的流程。

最终,Arch-Router的目标是帮助开发者和企业从分散的LLM实现转向统一的、策略驱动的系统。在用户任务多样化的场景中,该框架有助于将任务和LLM的碎片化转化为统一的体验,使最终产品对用户来说感觉无缝且自然。

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/xin-xing-15-yi-can-shu-lu-you-qi-mo-xing-shi-xian-93-zhun

Like (0)
王 浩然的头像王 浩然作者
Previous 2025年7月8日
Next 2025年7月8日

相关推荐

发表回复

Please Login to Comment