Sakana AI 首席技术官直言 “厌倦 Transformer”：深耕者呼吁突破单一架构，探索 AI 下一个突破点

王浩然 • 2025年10月26日下午6:00 • AI前沿 • 505 views

作为 Transformer 架构的联合缔造者之一 —— 曾参与撰写 2017 年里程碑式论文《Attention Is All You Need》、并为该架构命名的 Llion Jones，于 2025 年 10 月 23 日在旧金山 TED AI 大会上发表了极具颠覆性的观点：当前 AI 研究正因过度依赖 Transformer 架构而陷入 “危险的狭隘”，他本人已决定大幅减少在 Transformer 上的投入，转而探索能推动 AI 领域实现下一次重大突破的新技术。如今身为东京 Sakana AI 联合创始人兼首席技术官的 Jones，以 “架构深耕者” 的独特视角，揭露了 AI 行业在资本与竞争压力下的创新困境，引发全球科技界对 AI 研究方向的重新审视。

Jones 指出，当前 AI 领域正面临一个矛盾现实：尽管投入的资源、资金与人才规模空前，研究范围却反而愈发狭窄。他描述了当下研究环境的压抑现状 —— 科研人员时刻担心自己的想法被竞争对手 “抢先发表”，学术圈为追求稳妥的发表成果，更倾向于选择风险低、易落地的项目，而非可能带来颠覆性突破的 “高风险探索”。“现在做标准 AI 研究，你得默认至少有三四个团队在做相似甚至完全相同的事。”Jones 坦言，这种压力迫使研究者仓促发表论文，严重削弱了创新的可能性，“就像算法面临‘探索与利用’的权衡 —— 当行业过度‘利用’现有架构的价值，就会陷入‘局部最优解’，错过更优的全新方向，而我们现在正处于这样的困境中。”

为了印证这一观点，Jones 回顾了 Transformer 诞生前的 AI 研究格局：在 Transformer 出现前，研究者们长期围绕循环神经网络（RNN）进行微小优化，即便收效甚微也不愿跳出固有框架，直到 Transformer 架构出现，此前大量的 RNN 优化工作瞬间失去意义。“如果当时的研究者知道 Transformer 即将出现，他们还会花那么多时间改进 RNN 吗？”Jones 的反问直指当下 —— 他担忧行业正重蹈覆辙，所有人都聚焦于 Transformer 架构的细节调整（如参数规模扩大、训练数据增量），却忽视了可能存在的、能彻底改变 AI 格局的全新架构。

值得关注的是，Jones 特别对比了 Transformer 诞生时的研发环境与当下的差异，强调 “自由探索” 才是突破的关键。他回忆，2017 年 Transformer 的研发过程 “完全是自下而上的有机过程”：团队成员在午餐时交流想法、在办公室白板上随手涂鸦构思，既没有明确的目标，也没有管理层施加的压力 ——“没人要求我们必须做某个项目，也没人用论文数量或指标来考核我们”。正是这种无压力的自由环境，让团队得以跳出当时主流的 RNN 框架，大胆尝试自注意力机制。而如今，即便有些研究者能获得 “年薪百万美元” 的高薪，却仍受限于 “证明自身价值” 的压力，被迫选择 “低垂的果实”（如优化 Transformer 的细节），而非敢于试错的 “狂野想法”。Jones 犀利质疑：“当这些人才进入新岗位，他们真的有勇气去探索投机性的创新，还是会迫于压力追求短期成果？”

作为对当前困境的回应，Jones 在 Sakana AI 发起了一场 “反主流” 的研究实验：重建类似 Transformer 诞生时的自由探索环境，以 “自然启发” 为研究方向，弱化对论文发表和直接竞争的追求。他为团队提出了工程师 Brian Cheung 的一句理念作为准则：“只做那些‘如果没有你，就不会有人做’的研究”。其中一个典型案例是 “Sakana 连续思维机器”（Continuous Thought Machine）—— 该项目将类脑同步机制融入神经网络，最初由一名员工提出时，在其他公司或学术机构很可能因 “不切实际” 被否决，但 Jones 却给了团队一周时间探索，最终该项目不仅取得突破，还成功在顶级 AI 会议 NeurIPS 上展示。Jones 认为，这种 “以自由吸引人才” 的模式远比高薪更有效：“有才华、有野心的人，自然会被能实现创新的环境吸引。”

尽管明确表达对 Transformer 的 “厌倦”，Jones 也强调自己并非否定当前基于 Transformer 的研究价值 ——“未来几年，围绕现有技术仍有很多重要工作可做，能创造巨大价值”。他真正反对的，是 “将所有资源与人才绑定在单一架构上” 的短视行为。在他看来，Transformer 的巨大成功反而成为了 “创新的阻碍”：“正因为当前技术足够强大灵活，大家才失去了寻找更好方案的动力；如果现有技术没这么好用，反而会有更多人主动探索新方向。”

Jones 的警示背后，是 AI 行业正面临的 “增长瓶颈”：越来越多研究表明，单纯扩大 Transformer 模型的规模（如增加参数、扩充训练数据）所带来的性能提升已逐渐递减，行业急需通过架构创新而非 “堆资源” 来实现突破。但现实是，每年数百亿美元涌入 AI 领域，激烈的商业竞争迫使企业追求 “短期可见的成果”，导致 “探索性研究” 因回报不确定而被边缘化。作为 Transformer 架构的缔造者之一，Jones 的 “转身” 具有特殊分量 —— 他的选择并非出于对自身成果的否定，而是基于对 AI 行业长期发展的担忧，“我比几乎所有人都更早、更久地研究 Transformer，所以我更清楚，是时候向前看了。”

Jones 在演讲结尾发出呼吁：AI 行业的终极目标是推动技术进步、让全人类受益，而非在单一赛道上争夺 “短期胜利”。“这不是一场竞争，我们所有人的目标是一致的。” 他希望全球研究者能共同 “调高探索的刻度”，并坦诚分享探索成果，“只有这样，我们才能更快找到下一个‘Transformer 级’的突破”。如今，Jones 的观点已引发连锁反应：谷歌、OpenAI 等头部企业开始重新评估内部研究方向，部分高校也启动了 “非 Transformer 架构” 的专项研究基金。而 Sakana AI 正以 “自然启发式 AI” 为核心，探索如 “多智能体协同”“类脑神经网络” 等全新方向，试图为行业提供 “跳出 Transformer 框架” 的实践样本。

这场由架构缔造者发起的 “自我革命”，不仅暴露了 AI 行业的创新痛点，更为全球 AI 研究敲响警钟：当一个架构从 “创新工具” 变成 “思维枷锁”，唯有敢于打破惯性、拥抱不确定性，才能推动 AI 技术真正走向下一个时代。正如 Jones 所言：“下一个重大突破可能就在眼前，它需要的不是更多 Transformer 的优化，而是敢于放弃 Transformer 的勇气。”

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/sakana-ai-shou-xi-ji-shu-guan-zhi-yan-yan-juan-transformer

Like (0)

王浩然作者

0 0

简化 AI 技术栈：实现从云端到边缘端可扩展、可移植智能的关键

Previous 2025年10月26日

李开复犀利评析：美国已在 AI 硬件战争中落后中国

Next 2025年10月26日

AI前沿

进入“Whisperverse”：人工智能语音代理将如何指导我们度过每一天

人们普遍批评大型科技公司，称它们的平台将用户视为可以通过定向广告赚钱的玻璃眼球。这种情况很快就会改变，但这并不是因为科技平台不再积极瞄准用户。相反，我们的耳朵即将成为最有效的渠道，…

王浩然
2024年11月4日
000
AI前沿

三星半导体 2025 年第三季度强势复苏，AI 需求驱动存储芯片业务创纪录

三星电子公布 2025 年第三季度财报，其半导体部门以超预期的业绩表现标志着强势复苏 —— 该部门营业利润达 7 万亿韩元（约合 346.64 亿 – 49 亿美元，因…

王浩然
2025年11月1日
000
AI前沿

Diligent Robotics强化领导团队，引入两名Cruise前高管

Diligent Robotics，这家专注于研发在医院和药店工作的人形机器人的公司，近日宣布对其领导团队进行重要扩充。公司任命Rashed Haq为首席技术官（CTO），Todd…

王浩然
2025年7月13日
000
AI前沿

人工智能深度伪造如何威胁选举公正性——以及如何应对

竞选广告已经变得有点混乱和有争议。现在想象一下，你被一则竞选广告所吸引，其中一位候选人表达了强有力的立场，影响了你的投票——而这则广告甚至不是真的。这是一个深度伪造的广告。这不…

点点
2024年10月21日
000
AI前沿

亚马逊向全美国用户开放AI健康助手，开启医疗AI新赛道

近日，电商巨头亚马逊宣布将旗下Health AI健康助手从One Medical应用拓展至亚马逊官网及移动端应用，这一举措让数千万美国用户无需Prime会员或One Medical…

王浩然
2026年3月11日
000
AI前沿

实习生涉嫌破坏字节跳动 AI 项目，导致被解雇

TikTok 的创建者字节跳动最近遭遇了一起安全漏洞，一名实习生涉嫌破坏人工智能模型训练。微信上报道的这起事件引发了人们对该公司人工智能部门安全协议的担忧。对此，字节跳动澄清称，…

点点
2024年10月26日
000
AI前沿

Hugging Face首席科学官担忧：AI正沦为服务器上的“应声虫”‌

在人工智能（AI）技术日新月异的今天，Hugging Face的首席科学官表达了对AI发展方向的一种深切忧虑。他警告称，当前的AI系统正逐渐演变成仅执行预设任务、缺乏独立思考和批判…

王浩然
2025年3月9日
000
AI前沿

ARM与马来西亚签署2.5亿芯片供应协议‌

近日，全球领先的半导体知识产权供应商ARM宣布，将与马来西亚达成一项重大合作协议。根据协议，ARM将向马来西亚提供价值2.5亿芯片的解决方案，旨在助力马来西亚半导体产业的进一步发展…

王浩然
2025年3月6日
000
百度以DAA锚定AI价值新标尺，Q1 AI营收占比超五成验证商业化落地

当大模型行业在狂飙三年后迎来“价值定义”的关键节点，百度率先迈出了从“技术比拼”到“结果交付”的跨越性一步。在2026年这个AI与生产生活深度融合的年份，行业正急需一套能真正衡量A…

王浩然
AI前沿 2026年5月21日
000
AI前沿

报告揭露：Meta明星语音聊天机器人或与未成年人讨论性话题‌

在人工智能日益普及的今天，其带来的伦理与安全问题也日益凸显。近日，一份震撼性的报告指出，Meta（前身为Facebook）所开发的明星语音聊天机器人，在未经严格监管的情况下，可能存…

王浩然
2025年4月27日
000
AI前沿

通过官方API越狱ChatGPT及其他闭源AI模型的新研究

根据最新研究，ChatGPT和其他主流AI模型可以通过官方微调渠道被重新训练，从而绕过安全规则，提供关于如何实施恐怖行动、进行网络犯罪或其他”被禁止”行为的…

王浩然
2025年7月24日
000
AI前沿

Google Gemini 2.0：这会是真正自主人工智能的开始吗？

谷歌今天发布了Gemini 2.0，标志着其向能够独立完成复杂任务的 AI 系统迈出了雄心勃勃的一步，并引入了原生图像生成和多语言音频功能——这些功能使这家科技巨头在日益激烈的 A…

王浩然
2024年12月12日
000
AI前沿

Gartner 数据与分析峰会 2026 公布扩容 AI 议程，聚焦智能体与决策智能化转型

Gartner 正式公布 2026 年数据与分析峰会（Gartner Data & Analytics Summit 2026）的扩容 AI 议程，明确将 AI 置于核心战…

王浩然
2025年11月24日
000
AI前沿

人工智能创新的迷思：技术突破还是旧酒新瓶？‌

在人工智能被普遍视为当代最具变革性技术的今天，一个根本性问题正引发学界激烈辩论：我们究竟是在见证真正的认知革命，还是仅仅目睹了计算能力加持下的概念轮回？这场讨论远超出技术范畴，直接…

王浩然
2025年9月2日
000
AI前沿

海上水泥运输船：航行中制造水泥原料的创新科技‌

航运业正面临严峻的污染问题，而一家公司提出的解决方案不仅能消除船舶的二氧化碳排放，还能将其转化为有用资源。总部位于伦敦的Seabound公司开发了一套碳捕捉系统，可将发动机排放的C…

王浩然
2025年7月20日
000
AI前沿

Anthropic发布新型AI模型：思考时长任你定‌

近日，Anthropic公司推出了一款创新的AI模型，该模型能够按照用户的意愿持续思考，为用户提供更加深入和全面的回答。这款AI模型的问世，标志着人工智能技术在理解和响应用户需求方…

王浩然
2025年2月27日
000
AI前沿

首席人工智能官的到来：重塑企业经营之道

在人工智能（AI）迅猛发展并深度融入商业领域的当下，一个全新的关键角色 —— 首席人工智能官（CAIO）正登上企业舞台，以前所未有的方式重塑着企业的经营模式。CAIO 的出现并非偶…

王浩然
2026年1月10日
000
AI前沿

OpenAI o3 正式向全体开发者开放 API：推理即服务时代正式开启

OpenAI 近日宣布旗下推理模型 o3 正式向所有 API 开发者开放，结束了此前长达数月的等待名单限制。此举标志着 OpenAI 在推理能力商业化上迈出关键一步，也意味着具备复…

2026年4月20日
000
AI前沿

Prime 通过 AI 系统风险分析和建议措施重新思考企业安全设计

即使软件世界已经转向简化的用户界面和应用程序，幕后的安全工作也变得更加复杂——特别是对于依赖软件运营的大中型企业而言。尽管许多企业都试图采用“设计安全”的方法，即仔细考虑每个新更…

王浩然
2024年10月10日
000
AI前沿

OpenAI 在 2025 年初大力宣传通用人工智能和超级智能

就像2024 年在纽约市结束的方式一样，2025 年人工智能新闻周期也以一声雷鸣般的响声开始。 OpenAI 联合创始人兼首席执行官 Sam Altman昨天 (1 月 5 日) …

王浩然
2025年1月7日
000

发表回复

Please Login to Comment

Sakana AI 首席技术官直言 “厌倦 Transformer”：深耕者呼吁突破单一架构，探索 AI 下一个突破点

相关推荐

发表回复