
麻省理工学院(MIT)的研究人员近日开发了一种名为“自我适应语言模型”(SEAL)的框架,该框架能够使大型语言模型(LLM)通过不断更新其内部参数,实现持续学习和适应。SEAL框架教会大型语言模型如何自主生成训练数据并更新指令,从而使其能够永久吸收新知识并学习新任务。这一创新对于需要在动态环境中不断处理新信息并调整行为的企业级应用,特别是AI代理而言,具有重要意义。
尽管大型语言模型已展现出惊人的能力,但在适应特定任务、整合新信息或掌握新型推理技能方面,仍面临重大挑战。目前,当面临新任务时,大型语言模型通常通过微调或上下文学习等方法,直接从提供的数据中学习。然而,这些数据并不总是以模型能够高效学习的最优格式呈现。现有方法不允许模型自行开发最佳转换和学习新信息的策略。
MIT的博士生兼论文合著者Jyo Pari表示:“许多企业级应用场景不仅仅需要事实回忆,它们还需要更深入、持久的适应。例如,编程助手可能需要内化公司的特定软件框架,或面向客户的模型可能需要随时间学习用户的独特行为或偏好。”在这些情况下,临时检索是不够的,知识需要“融入”模型的权重中,以便影响所有未来的响应。
为实现语言模型的可扩展和高效适应,MIT研究人员提出为大型语言模型配备生成自身训练数据和微调指令以使用这些数据的能力。这就是SEAL框架的由来,它利用强化学习(RL)算法训练大型语言模型生成“自我编辑”——即指定模型应如何更新其权重的自然语言指令。这些自我编辑可以重组新信息、创建合成训练示例,甚至定义学习过程本身的技术参数。
直观地说,SEAL教会模型如何创建自己的个性化学习指南。模型不再只是阅读新文档(原始数据),而是学会重写和重新格式化信息,以更易于吸收和内化的风格呈现。这一过程结合了合成数据生成、强化学习和测试时训练(TTT)等多个AI研究领域的关键方面。
SEAL框架基于一个双循环系统运作。在“内循环”中,模型使用自我编辑对其权重进行小幅度、临时更新。在“外循环”中,系统评估该更新是否提高了模型在目标任务上的性能。如果提高了,模型将获得正面奖励,从而在未来加强其生成此类有效自我编辑的能力。随着时间的推移,大型语言模型将变得擅长自我教学。
在研究中,研究人员为整个SEAL框架使用了单个模型。然而,他们也指出,这个过程可以分解为“教师-学生”模型。一个专门的教师模型可以被训练为为单独的学生模型生成有效的自我编辑,然后学生模型将进行更新。这种方法可以为企业环境提供更专业、更高效的适应管道。
研究人员在知识整合(即永久整合新事实的能力)和小样本学习(即从少量示例中泛化的能力)两个关键领域测试了SEAL。在知识整合方面,目标是观察模型是否能够在没有访问问答期间的文本段落的情况下回答关于该段落的问题。对Llama-3.2-1B模型进行原始文本的微调仅比基础模型提供了轻微改进。然而,当SEAL模型通过生成段落中的多个“含义”来创建“自我编辑”,并在此合成数据上进行训练时,其准确性跃升至47%。值得注意的是,这优于使用由体积大得多的GPT-4.1生成的合成数据所得出的结果,这表明该模型学会了为自己创建更优质的训练材料。
在小样本学习方面,研究人员在抽象推理语料库(ARC)的示例上测试了SEAL,其中模型必须解决视觉谜题。在自我编辑阶段,模型必须生成整个适应策略,包括要使用的数据增强和工具以及应用的学习率。SEAL实现了72.5%的成功率,远高于没有强化学习训练的20%成功率和标准上下文学习的0%成功率。
一些专家预测,未来几年,高质量、人类生成的训练数据的供应可能会枯竭。进步可能很快将取决于“模型生成自身高效用训练信号的能力”,正如研究人员所言。他们补充说,“一个自然的下一步是元训练一个专门的SEAL合成数据生成器模型,该模型能够生成新的预训练语料库,从而使未来模型能够在不依赖额外人类文本的情况下进行扩展并实现更高的数据效率。”
例如,大型语言模型可以摄入复杂的文档,如学术论文或财务报告,并自主生成数千个解释和含义,以加深其理解。研究人员解释说:“这种自我表达和自我完善的迭代循环可以使模型即使在缺少额外外部监督的情况下,也能在罕见或代表性不足的主题上不断改进。”
对于构建AI代理而言,这种能力尤其有前景。代理系统必须随着与环境的交互而逐步获取和保留知识。SEAL提供了实现这一目标的机制。交互后,代理可以合成自我编辑以触发权重更新,从而使其内化所学到的知识。这使代理能够随时间演变,基于经验提高性能,并减少对静态编程或重复人类指导的依赖。
研究人员在论文中写道:“SEAL表明,大型语言模型在预训练后不必保持静态。通过学会生成自己的合成自我编辑数据并通过轻量级权重更新应用它,它们可以自主整合新知识并适应新任务。”
不过,SEAL并非万能解决方案。例如,它可能遭受“灾难性遗忘”,即不断的再训练周期可能导致模型忘记早期知识。Pari表示:“在我们当前的实现中,我们鼓励采用混合方法。企业应选择性确定哪些知识足够重要,可以永久整合。”
事实性和不断发展的数据可以通过检索增强生成(RAG)保留在外部记忆中,而持久且塑造行为的知识则更适合通过SEAL进行权重级别的更新。“这种混合记忆策略确保正确信息保持持久,而不会使模型不堪重负或引入不必要的遗忘,”他说。
此外,值得注意的是,调整自我编辑示例并训练模型需要相当长的时间。这使得在大多数生产环境中进行连续、实时编辑变得不切实际。Pari说:“我们设想了一个更实用的部署模型,其中系统在一段时间内(例如数小时或一天)收集数据,然后在计划的更新间隔期间执行有针对性的自我编辑。这种方法使企业能够控制适应成本,同时仍受益于SEAL内化新知识的能力。”
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/ma-sheng-li-gong-xue-yuan-tui-chu-xin-kuang-jia-rang-ai-mo