无需再训练：Sakana 的新 AI 模型改变了机器学习的方式

王浩然 • 2025年1月25日下午4:00 • AI前沿 • 323 views

Sakana AI是一家专注于研究自然启发算法的人工智能研究实验室，其研究人员开发了一种自适应语言模型，该模型无需微调即可学习新任务。该模型称为Transformer² (Transformer-squared)，它使用数学技巧在推理过程中将其权重与用户请求对齐。

这是一系列技术中的最新技术，旨在提高大型语言模型(LLM) 的推理能力，使其在不同领域的日常应用中越来越有用。

动态调整权重

通常，为新任务配置 LLM 需要昂贵的微调过程，在此过程中，模型会接触到新示例并调整其参数。更具成本效益的方法是“低秩自适应”（LoRA），其中在微调过程中识别和修改与目标任务相关的模型参数的一小部分。

经过训练和微调后，模型的参数保持不变，而将其重新用于新任务的唯一方法是通过少样本学习和多样本学习等技术。

与传统微调不同，Transformer-squared 使用两步方法在推理过程中动态调整其参数。首先，它会分析传入的请求以了解任务及其要求，然后对模型的权重应用特定于任务的调整，以优化其针对该特定请求的性能。

研究人员在公司网站上发表的一篇博客文章中写道：“通过有选择地调整模型权重的关键组成部分，我们的框架允许 LLM 实时动态地适应新任务。

Sakana Transformer-squared 的工作原理

Transformer-squared 的核心能力是在推理时动态调整其权重的关键组成部分。

为此，它必须首先确定在推理过程中可以调整的关键组件。Transformer-squared 通过奇异值分解(SVD) 来实现这一点，这是一种线性代数技巧，可将矩阵分解为三个其他矩阵，从而揭示其内部结构和几何形状。SVD 通常用于压缩数据或简化机器学习模型。

当应用于 LLM 的权重矩阵时，SVD 会获得一组组件，这些组件大致代表了模型的不同能力，例如数学、语言理解或编码。在实验中，研究人员发现可以调整这些组件以修改模型在特定任务中的能力。

为了系统地利用这些发现，他们开发了一种称为奇异值微调 (SVF) 的过程。在训练时，SVF 从模型的 SVD 组件中学习一组向量。这些向量称为 z 向量，是各个技能的紧凑表示，可用作旋钮来放大或抑制模型在特定任务中的能力。

在推理时，Transformer-squared 使用两遍机制来调整 LLM 以适应未见过的任务。首先，它检查提示以确定解决问题所需的技能（研究人员提出了三种不同的技术来确定所需的技能）。在第二阶段，Transformer-squared 配置与请求相对应的 z 向量，并通过模型和更新后的权重运行提示。这使模型能够为每个提示提供量身定制的响应。

Transformer-squared 的实际应用

研究人员将 Transformer-squared 应用于Llama-3和Mistral LLM，并在数学、编码、推理和视觉问答等各种任务上将它们与 LoRA 进行了比较。Transformer-squared 在所有基准测试中均优于 LoRA，同时参数更少。值得注意的是，与 Transformer-squared 不同，LoRA 模型无法在推理时调整权重，这使得它们的灵活性较低。

另一个有趣的发现是，从一个模型中提取的知识可以转移到另一个模型。例如，从 Llama 模型获得的 z 向量可以应用于 Mistral 模型。结果与从头开始为目标模型创建 z 向量并不相同，并且由于这两个模型具有相似的架构，因此可转移性是可能的。但它表明学习可应用于广泛模型的广义 z 向量的可能性。

研究人员写道：“前进的道路在于建立能够动态适应和与其他系统协作的模型，结合专业能力来解决复杂的多领域问题。”“像Transformer²这样的自适应系统弥合了静态人工智能和生命智能之间的差距，为高效、个性化和完全集成的人工智能工具铺平了道路，推动了各行各业和我们日常生活的进步。”

Sakana AI 在GitHub上发布了训练 Transformer-squared 组件的代码。

推理时间技巧

随着企业探索不同的 LLM 应用，过去一年出现了明显的转向开发推理时间技术的趋势。Transformer-squared 是几种方法之一，它使开发人员能够在推理时为新任务定制 LLM，而无需重新训练或微调它们。

Titans是 Google 研究人员开发的一种架构，它从不同的角度解决了这个问题，使语言模型能够在推理时学习和记忆新信息。其他技术则侧重于使前沿 LLM 能够利用其越来越长的上下文窗口来学习新任务而无需重新训练。

随着企业拥有特定于其应用程序的数据和知识，推理时间定制技术的进步将使 LLM 变得更加有用。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/wu-xu-zai-xun-lian-sakana-de-xin-ai-mo-xing-gai-bian-le-ji

Llama 3 LoRA Mistral Sakana AI Transformer² 奇异值分解

Like (0)

王浩然作者

0 0

为什么 AI 领域的每个人都对 DeepSeek 着迷

Previous 2025年1月25日

Hugging Face 将 AI 视觉模型缩小至手机友好尺寸，大幅降低计算成本

Next 2025年1月25日

AI前沿

OpenAI与AWS达成七年380亿美元云合作：重塑AI与云计算生态格局

2025年，全球AI与云计算领域迎来里程碑式事件——OpenAI正式宣布与亚马逊云服务（AWS）达成一项为期七年、价值高达380亿美元的战略性云合作协议。这一合作不仅创下了AI行业…

王浩然
2025年11月7日
000
AI前沿

从金融科技到活动智能：Voxo CEO揭秘AI对话分析的进化之路

在AI技术重塑各行各业的当下，对话分析与活动智能正成为企业挖掘实时价值的新赛道。Voxo AI作为这一领域的创新者，凭借AI驱动的实时对话分析能力，正在改变会议、论坛等活动的内容生…

王浩然
2026年2月3日
000
AI前沿

据报道，谷歌正在开发一种“使用计算机的代理”人工智能系统

据报道，谷歌最早可能在 12 月预览其对 Rabbit 大型动作模型概念的看法。据该媒体采访的三位直接了解该项目的人士称，该项目的代号为“Project Jarvis”，将为用户执…

王浩然
2024年10月29日
000
AI前沿

联邦法官支持Anthropic：未经作者许可使用书籍训练AI不构成侵权

在人工智能（AI）技术日新月异的今天，围绕其版权使用的法律争议也层出不穷。近日，一起关于AI公司Anthropic未经作者许可，使用大量书籍训练其大型语言模型（LLM）的诉讼案，引…

王浩然
2025年6月30日
000
AI前沿

苹果痛失AI领军人物，其转投Meta引发热议

在科技巨头之间的激烈竞争中，人才流动一直是一个备受关注的话题。近日，苹果公司遭遇了一次重大的人才损失，其人工智能（AI）领域的关键领导者决定离开，转而加入Meta公司。这一消息在科…

王浩然
2025年7月10日
000
AI前沿

DeepSeek震撼AI行业：AI的下一次飞跃或不再依赖更多数据，而是推理时的更强计算能力‌

人工智能领域正以前所未有的速度发展，而近期的突破更是颠覆了已有的认知。2025年初，中国AI实验室DeepSeek发布的新模型，在AI行业内引起了巨大震动，导致Nvidia等AI数…

王浩然
2025年4月7日
000
AI前沿

阿里巴巴发布 Qwen with Questions，一种超越 o1-preview 的开放式推理模型

中国电子商务巨头阿里巴巴发布了其不断扩展的 Qwen 家族中的最新模型。这个模型被称为 Qwen with Questions (QwQ)，是OpenAI 的 o1推理模型的最新开…

王浩然
2024年12月1日
000
AI前沿

Anthropic 的新 AI 模型可以控制你的电脑

去年春天，Anthropic在向投资者推介时表示，公司打算开发人工智能来驱动虚拟助理，让其能够独立进行研究、回复电子邮件和处理其他后台工作。该公司将此称为“人工智能自学的下一代算法…

王浩然
2024年10月24日
000
AI前沿

亚马逊推出 Kindle Translate：AI 赋能自助出版作者触达全球读者

亚马逊正式发布 AI 驱动的翻译服务 Kindle Translate，专为通过 Kindle Direct Publishing（KDP，Kindle 直接出版平台）自助出版的作…

王浩然
2025年11月12日
000
AI前沿

Terminal-Bench 2.0 与 Harbor 框架同步发布：构建 AI 智能体容器化测试新体系

面向自主 AI 智能体性能评估的基准测试套件 Terminal-Bench 推出 2.0 版本，同时配套发布容器化测试框架 Harbor。这一组合发布旨在解决 AI 智能体（尤其面…

王浩然
2025年11月13日
000
AI前沿

PayPal 的智能体商务布局：灵活性而非标准将定义下一代电商浪潮

当前企业在布局线上商品与服务销售时，仍在等待智能体商务（Agentic Commerce）的核心架构成型，而支付巨头 PayPal 通过推出全新功能，正试图填补这一空白。作为谷歌智…

王浩然
2025年10月31日
000
AI前沿

突破数学与编程局限：新型强化学习框架助力训练复杂现实任务的 LLM 智能体

Agent-R1 的新型强化学习（RL）框架，突破传统强化学习在数学、编程等明确任务场景的局限，聚焦多轮交互、动态环境下的复杂智能体任务训练，为企业级真实场景的 LLM 智能体应用…

王浩然
2025年12月16日
000
AI前沿

微软刚刚开发出一款设计未来材料的人工智能：它的工作原理如下

微软研究院今天推出了一个强大的新型人工智能系统，该系统可以生成具有特定所需特性的新型材料，有可能加速更好的电池、更高效的太阳能电池和其他关键技术的开发。该系统名为MatterGe…

王浩然
2025年1月19日
000
AI前沿

Emergent AI实测：几分钟搭建全栈应用，低代码开发的新革命？

当你盯着空白屏幕，满心想法却不知道如何转化为一个能运行的应用时，你或许从未想过，这个困扰无数创业者、产品经理和编程新手的难题，如今能被一款AI工具轻松解决。Emergent AI，…

王浩然
2026年2月4日
000
AI前沿

Vibe编码在企业级应用：AI工具全面覆盖开发周期‌

随着技术的飞速发展，AI在软件开发领域的应用日益广泛，Vibe编码现象——即开发者越来越多地依赖AI来生成和辅助代码——已从一个小众概念迅速演变为主流开发方法。GitHub Cop…

王浩然
2025年4月6日
000
AI前沿

微软小型 AI 模型击败大型模型：效率之王 Phi-4

微软推出了一款新的人工智能模型，该模型实现了卓越的数学推理能力，同时使用的计算资源远少于其大型竞争对手。拥有 140 亿个参数的Phi-4经常胜过谷歌Gemini Pro 1.5等…

王浩然
2024年12月17日
000
AI前沿

从MIPS到Exaflops：40年间计算能力的飞跃将重塑AI领域

在最近的NVIDIA GTC大会上，该公司揭幕了一款据称是全球首款能够达到每秒一百亿亿次（即一Exaflop）浮点运算的单机架服务器系统。这一突破性进展基于最新的GB200 NVL…

王浩然
2025年4月7日
000
AI前沿

超越逻辑：以杰弗里·辛顿的类比机器理论重思人类思维‌

长久以来，人类思维被视作逻辑与理性的典范。人们常被描绘为运用逻辑与推理来洞悉世界的理性存在。然而，人工智能领域的领军人物杰弗里·辛顿对这一观念提出了深刻质疑。他主张，人类并非纯粹的…

王浩然
2025年4月28日
000
AI前沿

Concourse获1200万美元A轮融资，AI代理平台向全规模财务团队开放

在AI技术深度渗透各行业的当下，财务领域的智能化转型正迎来新的突破口。近日，专注于财务AI代理平台的Concourse公司完成了1200万美元的A轮融资，同时宣布其AI代理平台正式…

王浩然
2026年2月1日
000
AI前沿

Noma 为企业 AI 解决方案提供从数据存储到部署的安全保障

随着 2024 年接近尾声，企业技术的现状是，各种规模和领域的公司都热衷于利用生成性 AI 应用程序中的数据来改善内部（面向员工）或外部（面向客户/合作伙伴）流程。然而，确保安全…

王浩然
2024年11月3日
000