谷歌 “嵌套学习” 范式:有望破解 AI 记忆与持续学习难题

谷歌 “嵌套学习” 范式:有望破解 AI 记忆与持续学习难题

谷歌研究人员提出一种名为 “嵌套学习(Nested Learning)” 的全新 AI 范式,旨在解决当前大语言模型(LLM)最核心的局限之一 —— 训练后无法学习或更新知识,为 AI 实现高效记忆与持续学习提供了突破性思路。该范式颠覆传统认知,不再将模型及其训练视为单一过程,而是将其重构为 “嵌套式多层优化问题系统”,通过多抽象层级、多时间尺度的协同优化,解锁更具表达力的学习算法,进而提升模型的上下文学习能力与记忆效率。为验证这一理念,研究团队基于嵌套学习开发出名为 Hope 的新模型,初步实验显示,其在语言建模、持续学习及长上下文推理任务中表现远超传统模型,为适配真实世界动态环境的高效 AI 系统奠定了基础。

要理解嵌套学习的价值,需先明确当前 LLM 面临的 “记忆困境”。深度学习虽无需传统机器学习的精细工程与领域知识,仅通过海量数据即可自主学习特征,但仍存在无法通过 “堆叠层数” 或 “扩大参数量” 解决的核心难题:对新数据的泛化能力弱、难以持续学习新任务、训练中易陷入次优解。尽管 Transformer 架构推动 LLM 从 “任务专用” 转向 “通用系统”,催生诸多涌现能力,但 “训练后静态化” 的局限始终存在 ——LLM 的核心知识与技能被固定在预训练阶段,无法从新交互中永久更新,唯一的适应性仅体现在 “上下文学习”(依赖即时提示信息),如同 “无法形成长期记忆的人”:知识要么局限于预训练的 “遥远过去”,要么被困在上下文窗口的 “即时现在”,一旦对话超出窗口长度,信息便永久丢失。

更深层的问题在于,Transformer 架构缺乏 “在线整合” 机制:上下文窗口中的信息永远无法更新模型的长期参数(即前馈层存储的权重),导致模型无法从交互中永久获取新知识或技能,所有临时学习的内容都会随上下文窗口滚动而消失,这也成为 AI 难以适应真实世界动态变化的关键瓶颈。

嵌套学习的核心创新,在于借鉴人脑的多尺度学习机制,让计算模型能通过不同抽象层级与时间尺度从数据中学习。传统观点将模型架构与优化算法视为独立组件,而嵌套学习打破这一界限,将单个机器学习模型视为 “相互关联的学习问题集合”,这些问题以不同速度同步优化。在该范式下,训练过程的核心是构建 “联想记忆”—— 模型学习将数据点映射到 “局部误差”(衡量数据点的 “惊奇度”,即意外程度),甚至 Transformer 的注意力机制也被重新定义为 “简单联想记忆模块”,负责学习 token 间的映射关系。通过为每个组件定义 “更新频率”,这些嵌套的优化问题可被划分为不同 “层级”,形成嵌套学习的核心框架,实现类似人脑 “短期记忆处理即时信息、长期记忆整合抽象知识” 的分工模式。

基于嵌套学习开发的 Hope 模型,进一步突破了现有架构的记忆局限。Hope 是谷歌此前推出的 Titans 架构(2025 年 1 月发布,旨在解决 Transformer 记忆问题)的改进版,Titans 虽具备强大记忆系统,但仅支持两种参数更新速度(长期记忆模块与短期记忆机制),灵活性有限。而 Hope 通过新增 “连续记忆系统(CMS)”,构建了可自我修正的架构:CMS 如同多组 “记忆库”,每组以不同频率更新 —— 更新快的记忆库处理即时信息(如当前对话内容),更新慢的则长期整合抽象知识(如通用逻辑、领域规则),使模型能通过 “自指循环” 优化自身记忆,理论上可实现无限层级的学习。

实验数据充分验证了 Hope 的优势:在语言建模与常识推理任务中,Hope 的困惑度(衡量模型预测下一词与文本连贯性的指标)显著低于标准 Transformer 及现代循环模型,准确率则更高;在 “大海捞针(Needle-In-Haystack)” 这类长上下文任务中(需从海量文本中定位并使用特定信息),Hope 的表现同样突出,证明 CMS 能更高效地处理超长信息序列。不过,嵌套学习的规模化应用仍面临挑战 —— 当前 AI 软硬件栈高度优化于传统深度学习架构(尤其是 Transformer),要实现嵌套学习的大规模落地,可能需要对现有硬件与软件体系进行根本性调整。

从行业视角来看,嵌套学习并非孤例,此前已有类似尝试探索多层级信息处理:Sapient Intelligence 的层级推理模型(HRM)通过分层架构提升推理任务效率,三星的微型推理模型(TRM)则通过架构优化进一步强化 HRM 的性能与效率。但嵌套学习的独特价值在于,它首次从 “统一架构与优化算法” 的角度出发,为解决持续学习问题提供了系统性方案,而非局部改进。若该范式能获得行业认可,有望推动 LLM 向 “可持续学习、自适应环境” 的方向发展,这对企业级应用尤为关键 —— 在金融、医疗、零售等真实场景中,环境、数据与用户需求始终处于动态变化,具备持续学习能力的 AI,才能真正突破 “静态模型” 的局限,实现长期价值。

结合补充研究来看,嵌套学习的理论基础与实践意义得到进一步印证。该范式已被 NeurIPS 2025 收录,由清华姚班校友、哥伦比亚大学博士 Peilin Zhong 主导,核心贡献在于打破 “模型结构与优化算法分离” 的传统误区,将二者统一为 “不同优化层级”,这与人类大脑通过 “神经可塑性” 实现多时间尺度更新的机制高度相似。同时,嵌套学习还为改进现有算法提供了新思路,例如将优化器(如动量优化器)重新设计为联想记忆模块,使优化过程对不完美数据更具鲁棒性,为后续 AI 系统的设计提供了 “从理论到实践” 的完整路径。

总体而言,谷歌嵌套学习范式的提出,不仅为解决 AI 记忆与持续学习难题提供了新方向,更重新定义了 “模型设计” 的底层逻辑 —— 从 “单一过程优化” 转向 “多层系统协同”。尽管面临软硬件适配的挑战,但随着技术迭代与行业探索,嵌套学习有望推动 AI 从 “静态工具” 升级为 “可自主进化的智能系统”,为企业级 AI 应用开辟更广阔的空间。

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/gu-ge-qian-tao-xue-xi-fan-shi-you-wang-po-jie-ai-ji-yi-yu

Like (0)
王 浩然的头像王 浩然作者
Previous 2025年11月23日
Next 2025年11月24日

相关推荐

发表回复

Please Login to Comment