混合递归架构实现推理速度翻倍：技术原理与实施指南‌

王浩然 • 2025年7月24日下午5:00 • AI前沿 • 272 views

韩国科学技术院（KAIST）与Mila研究院的科学家们近期提出了一种创新的Transformer架构——混合递归（Mixture-of-Recursions, MoR），该设计通过结合参数共享与自适应计算技术，显著提升了大型语言模型（LLM）的运算效率。实验数据显示，MoR在保持参数量和计算预算不变的情况下，推理速度可达传统Transformer的2.06倍，同时降低25%的峰值内存占用。

‌LLM扩展的挑战与现有方案‌
当前LLM的性能提升高度依赖模型规模的扩大，但随之而来的内存与算力需求已成为非超大规模数据中心的部署瓶颈。现有优化方案主要聚焦两类方法：

‌参数共享技术‌：如层绑定（Layer Tying）通过跨层复用权重减少独立参数量
‌自适应计算机制‌：例如早期退出（Early Exiting）允许模型对简单token提前终止计算

然而，如何协同整合这两种策略始终是未解的难题。

‌MoR的核心技术突破‌
该架构基于递归Transformer改进，通过两个关键创新实现突破：

‌动态深度路由系统‌

采用轻量级路由器为每个token分配最佳递归深度
类似混合专家（MoE）的路由机制，但以递归深度替代专家网络
根据token复杂度动态决定层块应用次数，避免冗余计算

‌递归感知KV缓存优化‌

传统KV缓存在递归模型中易成内存瓶颈
选择性存储活跃token的键值对，减少内存流量
无需训练后修改即可提升吞吐量

‌性能验证与商业价值‌
研究人员在1.35亿至17亿参数规模的模型上进行了测试：

‌准确性‌：同等计算预算下，MoR模型少样本准确率达43.1%（基线42.3%）
‌效率‌：相同数据量训练时，节省19%训练时间与25%内存
‌扩展性‌：参数量超3.6亿后，MoR性能全面超越标准Transformer

对于企业部署，论文合著者Sangmin Bae指出：

‌低成本迁移‌：对现有开源模型进行”再训练”比从头训练更经济
‌灵活配置‌：可根据任务复杂度调整递归步数，例如简单任务适用更多递归步骤
‌多模态潜力‌：该框架可扩展至视频、音频处理领域

‌实施建议与未来展望‌
企业采用MoR时需注意：

通过超参数调节平衡性能与效率
初期建议采用小规模验证再逐步扩展
关注递归深度与KV缓存策略的协同优化

研究者特别强调，MoR为”实现大模型能力的同时显著降低计算与内存开销提供了有效路径”，其模块化设计尤其适合需要处理长上下文窗口的工业场景。随着多模态应用的普及，这项技术有望在更广泛的AI部署中释放价值。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/hun-he-di-gui-jia-gou-shi-xian-tui-li-su-du-fan-bei-ji-shu

Like (0)

王浩然作者

0 0

Anthropic早期员工创办企业获1500万美元融资，为AI代理提供保险并助力初创公司安全部署

Previous 2025年7月24日

SecurityPal：AI与尼泊尔专家团队协同，将企业安全问卷处理速度提升87倍以上‌

Next 2025年7月24日

AI前沿

Mission Control AI推出Swarm平台：为高安全要求行业打造专属合成劳动力

在企业AI应用加速落地的当下，自主AI代理的治理与安全问题正成为行业关注的焦点。近日，总部位于旧金山的Mission Control AI正式推出Swarm平台——一款专为高度监管…

王浩然
2026年2月26日
000
AI前沿

克服生成式AI应用中的语言与文化偏见：构建包容性人工智能生态‌

在2025年这个生成式AI（genAI）技术全面渗透商业社会的时代，ChatGPT和AI驱动的谷歌搜索已成为日常工具，但一个不容忽视的现实是：全球范围内非英语母语者正面临日益严重的…

王浩然
2025年9月10日
000
AI前沿

幻影数据中心：它们是什么（或不是什么）以及它们为何阻碍人工智能的真正前景

在人工智能时代，公共事业单位正面临一个意想不到的新问题：幻影数据中心。从表面上看，这似乎很荒谬：为什么（以及如何）有人会制造像数据中心这样复杂的东西？但随着人工智能需求以及对更多计…

王浩然
2025年1月6日
000
AI前沿

Gemini透明度削减：企业开发者调试陷入困境‌

在AI技术迅猛发展的背景下，大型科技公司的一举一动都牵动着整个行业的神经。近期，Google对其Gemini模型的透明度进行了调整，这一变动看似微小，却给众多企业开发者带来了不小的…

王浩然
2025年6月24日
000
AI前沿

iPhone 16 需要与 Siri 一起做 5 件事才能在 AI 游戏中击败 Google Pixel 和 Galaxy S24

苹果年度盛事将于今天（9 月 9 日）举行，届时将发布 iPhone 16 ——但苹果这款配备Apple Intelligence 的新款超级手机与三星和谷歌的最佳产品相比如何？ …

王浩然
2024年9月9日
000
AI前沿

金融领域的人工智能：重新定义金融服务的双刃剑

如今，只有懒人不会讨论人工智能 (AI) 及其彻底改变我们生活各个方面（包括金融）的潜力。事实上，人工智能市场正在呈现惊人的增长——2024 年市场规模超过1840 亿美元，比 2…

王浩然
2024年8月31日
000
AI前沿

Google 的 Gemini API 和 AI Studio 助力 Google 搜索

从今天开始，使用 Google Gemini API 及其Google AI Studio构建基于 AI 的服务和机器人的开发人员将能够利用 Google 搜索的数据来支持其提示结…

王浩然
2024年11月2日
000
AI前沿

忘掉 Nvidia：Ndea 希望打造能够不断自我改进且“看不到任何瓶颈”的人工智能

谷歌前工程师、广为使用的 Python 深度学习框架Keras的创建者 François Chollet 与 Zapier 联合创始人 Mike Knoop 共同创立了新的人工智能…

王浩然
2025年1月16日
000
AI前沿

Elicit AI深度测评：让学术研究效率翻倍的AI助手

在学术研究的快节奏世界里，面对指数级增长的文献量，每个研究者都曾有过对着“论文大山”望而却步的时刻。如何在海量信息中快速定位有价值的研究、梳理核心观点、识别研究趋势？一款名为Eli…

王浩然
2026年2月17日
000
AI前沿

OpenAI发布革命性GPT-5 Codex：专为自主编程代理优化的新一代AI引擎‌

人工智能领域迎来重大突破——OpenAI于2025年9月正式推出GPT-5 Codex，这是首个专为”代理式编程”（Agentic Coding）设计的大语…

王浩然
2025年9月17日
000
AI前沿

编码领域的抉择：灵活自动化与代理增强之辨

在编码领域不断演进的进程中，技术的创新始终是推动其发展的核心动力。近年来，灵活自动化与代理增强这两种新兴技术逐渐崭露头角，它们各自以独特的方式重塑着编码工作的流程与模式，引发了行业…

王浩然
2026年1月6日
000
AI前沿

Sam Altman 承认 OpenAI 在开源辩论中“站在了历史的错误一边”

OpenAI 首席执行官萨姆·奥特曼 (Sam Altman ) 周五做出惊人承认，他的公司在开源人工智能问题上“站在了历史的错误一边”，这表明，随着来自中国的竞争加剧和高效开放模…

王浩然
2025年2月2日
000
AI前沿

马来西亚出台新规：美国AI芯片出口需提前30天申请许可‌

在全球科技供应链持续紧张的背景下，马来西亚政府近日宣布了一项重要贸易管制措施。根据马来西亚投资、贸易和工业部（MITI）7月14日发布的公告，即日起所有从马来西亚出口或转运美国原产…

王浩然
2025年7月17日
000
AI前沿

OpenAI 在 2025 年初大力宣传通用人工智能和超级智能

就像2024 年在纽约市结束的方式一样，2025 年人工智能新闻周期也以一声雷鸣般的响声开始。 OpenAI 联合创始人兼首席执行官 Sam Altman昨天 (1 月 5 日) …

王浩然
2025年1月7日
000
AI前沿

英伟达发布Rubin CPX GPU：专为大规模AI推理工作负载打造的革命性架构‌

2025年9月，图形计算巨头英伟达再次以颠覆性产品震撼人工智能硬件市场。公司正式推出全新Rubin CPX GPU系列，这款专为处理视频、音频和文本等长上下文数据优化的加速器，标志…

王浩然
2025年9月11日
000
AI前沿

亚马逊利用 Anthropic 的人工智能来改造 Alexa

亚马逊将通过与人工智能公司Anthropic建立战略合作伙伴关系来升级其 Alexa 语音助手。据路透社首次报道，亚马逊计划推出代号为“Remarkable”的新版 Alexa，它…

AI News
2024年9月1日
000
AI前沿

薪资初创公司 Warp 与发表白人至上言论的“关联公司”断绝关系

Warp是纽约的一家年轻的薪资初创公司，由于与该公司关联的一个账户发布了一些有争议的帖子而备受关注。周四，一个名为维托里奥 (Vittorio) 的账户在 X 上发帖称，“我更喜…

点点
2024年9月8日
000
AI前沿

苹果再失 AI 高管：柯阳离职加盟 Meta，Siri 2026 年升级计划承压

苹果负责 AI 驱动网页搜索业务的高管柯阳（Ke Yang）已离职并加盟 Meta，这是苹果 AI 部门近期一系列核心人才流失中的最新案例，为计划于 2026 年 3 月推出的 S…

王浩然
2025年10月20日
000
AI前沿

人工智能先驱李飞飞表示，人工智能政策必须以“科学而非科幻小说”为基础

斯坦福大学计算机科学家兼初创公司创始人李飞飞，有时被称为“人工智能教母”，她在下周于巴黎举行的人工智能行动峰会之前概述了“未来人工智能政策制定的三大基本原则”。首先，李飞飞表示，…

王浩然
2025年2月10日
000
AI前沿

Perplexity 让 AI 研究变得异常便宜——这对行业意味着什么

Perplexity今天推出了Deep Research ，打破了 AI 市场的现状，这款工具可以在几分钟内生成全面的研究报告，并以典型企业成本的一小部分向用户开放先进的 AI 功…

王浩然
2025年2月15日
000

发表回复

Please Login to Comment

混合递归架构实现推理速度翻倍：技术原理与实施指南‌

相关推荐

发表回复