体验时代：自我学习的AI代理将遍布网络，如何做好准备

王浩然 • 2025年5月6日下午1:00 • AI前沿 • 461 views

在人工智能领域，两位知名科学家——大卫·西尔弗和理查德·萨顿在一篇新论文中提出了一个引人注目的观点：人工智能即将进入一个全新的阶段，即“体验时代”。在这个阶段，AI系统将越来越少地依赖人类提供的数据，而是通过与世界的交互和从中收集的数据来自我提升。尽管这篇论文具有概念性和前瞻性，但它对旨在为未来AI代理和系统构建的企业具有直接的影响。

西尔弗和萨顿都是经验丰富的科学家，他们在预测AI未来的准确性上有着卓越的记录，这在当今最先进的AI系统中得到了直接体现。2019年，强化学习先驱萨顿撰写了著名论文《苦涩的教训》，他在文中主张，AI领域取得的最大长期进展始终源于利用大规模计算和通用搜索与学习方法的结合，而不是主要依赖于整合复杂的人类衍生领域知识。大卫·西尔弗是DeepMind的高级科学家，他对AlphaGo、AlphaZero和AlphaStar等深度强化学习的重要成果做出了关键贡献。他还是2021年一篇论文的合著者，该论文声称强化学习和设计良好的奖励信号足以创建非常先进的AI系统。最新的大型语言模型（LLMs）正是利用了这两个概念。

自GPT-3以来席卷AI领域的LLMs新浪潮，主要依赖于计算和数据规模的扩展，以内化大量知识。而最近一波推理模型，如DeepSeek-R1，已经证明，强化学习和一个简单的奖励信号足以学习复杂的推理技能。

“体验时代”建立在西尔弗和萨顿近年来一直在讨论的概念之上，并将它们适应了AI的最新进展。作者认为，“仅依靠人类数据的监督学习所推动的进步速度明显放缓，这预示着需要一种新的方法。”这种方法需要一种新的数据来源，这种数据必须以一种随着代理变得越来越强大而不断改进的方式生成。“这可以通过允许代理从它们自己的经验中不断学习来实现，即代理与环境交互产生的数据，”萨顿和西尔弗写道。他们主张，最终，“体验将成为改进的主要媒介，并最终远远超过当今系统中使用的人类数据的规模。”

据作者介绍，除了从自己的经验数据中学习外，未来的AI系统还将在四个维度上“突破以人类为中心的AI系统的限制”：

‌流‌：AI代理将不再局限于断开连接的事件，而是像人类一样，在长时间尺度上拥有自己的经验流。这将使代理能够规划长期目标，并随着时间的推移适应新的行为模式。我们可以在具有非常长的上下文窗口和基于用户交互连续更新的内存架构的AI系统中看到这种趋势的端倪。
‌行为和观察‌：在体验时代，代理将不再专注于人类特权的行为和观察，而是将在真实世界中自主行动。这方面的例子包括能够通过计算机使用和模型上下文协议（MCP）等工具与外部应用程序和资源交互的代理系统。
‌奖励‌：当前的强化学习系统主要依赖人类设计的奖励函数。在未来，AI代理应该能够设计自己的动态奖励函数，这些函数能够随时间适应，并与从代理在世界中的行为和观察中收集到的真实世界信号相匹配。我们正在看到如Nvidia的DrEureka等自我设计奖励的早期版本。
‌规划和推理‌：当前的推理模型被设计为模仿人类的思维过程。作者认为，“肯定存在更高效的思维机制，使用非人类语言，例如，可能利用符号、分布式、连续或可微计算。”AI代理应该与世界互动，观察和使用数据来验证和更新其推理过程，并开发世界模型。

AI代理通过强化学习适应环境的想法并不新鲜。但在此之前，这些代理仅限于非常受限的环境，如棋盘游戏。如今，能够与复杂环境（例如AI计算机使用）交互的代理，以及强化学习的进步将克服这些限制，带来向体验时代的过渡。

对企业而言，萨顿和西尔弗的论文中有一个观点将对实际应用产生重要影响：“代理可以使用‘人类友好’的行为和观察，如用户界面，这自然促进了与用户的通信和协作。代理还可以执行‘机器友好’的行为，这些行为执行代码并调用API，允许代理为实现其目标而自主行动。”

体验时代意味着开发者在构建应用程序时，不仅要考虑人类用户，还要考虑AI代理。机器友好的行为要求构建安全且可访问的API，这些API可以直接或通过如MCP等接口轻松访问。这也意味着创建可以通过如Google的Agent2Agent等协议发现的代理。你还需要设计API和代理接口，以提供对行为和观察的访问。这将使代理能够逐渐推理并从与你的应用程序的交互中学习。

如果萨顿和西尔弗所描绘的愿景成为现实，那么很快就会有数十亿个代理在网络上（并且很快也会在物理世界中）漫游以执行任务。它们的行为和需求将与人类用户和开发者截然不同，而拥有一个代理友好的与你的应用程序交互的方式，将提高你利用未来AI系统的能力（并防止它们可能造成的危害）。“通过建立在强化学习的基础上，并将其核心原则适应这个新时代的挑战，我们可以解锁自主学习的全部潜力，并为实现真正超越人类的智能铺平道路，”萨顿和西尔弗写道。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/ti-yan-shi-dai-zi-wo-xue-xi-de-ai-dai-li-jiang-bian-bu-wang

DeepMind 企业应用准备体验时代大卫·西尔弗大型语言模型奖励函数强化学习理查德·萨顿自我学习AI代理规划推理

Like (0)

王浩然作者

0 0

Qwen推出2.5-Omni-3B模型，赋能消费级电脑与笔记本

Previous 2025年5月6日

UiPath的新编排器：引导AI代理遵循企业规则

Next 2025年5月6日

AI前沿

多智能体悖论：为何更多人工智能智能体反而会导致更糟糕的结果

如果一个大型语言模型能够开展推理、规划并采取行动，那么人们很自然地会认为多个模型协同工作理应表现得更为出色。这种理念推动着智能体团队在编码、科研、金融以及工作流程自动化等多个领域迅…

王浩然
2025年12月29日
000
AI前沿

SAP 推出欧洲 AI 与云主权新策略，以 EU AI Cloud 构建统一主权技术体系

SAP 正式发布 “EU AI Cloud” 战略框架，通过整合自身在欧洲的 AI 与云服务资源，为区域内企业与公共部门提供兼具灵活性与合规性的主权解决方案。这一举措不仅是 SAP…

王浩然
2025年12月3日
000
AI前沿

Nous Research 的 NousCoder 140 亿参数模型：开源编码模型的新力量

在开源软件和人工智能快速发展的时代，代码生成模型成为了技术领域的焦点之一。Nous Research 推出的 NousCoder 14B，作为一款拥有 140 亿参数的开源编码模型…

王浩然
2026年1月11日
000
AI前沿

司法部新提案：谷歌仍需剥离Chrome浏览器，但允许AI领域投资‌

近日，美国司法部针对谷歌公司提出了一项新的提案。该提案依旧要求谷歌剥离其Chrome浏览器业务，但同时明确表示，允许谷歌在人工智能（AI）领域进行投资。此提案一出，立即引发了业界…

王浩然
2025年3月11日
000
AI前沿

Meta 正在制造能“感受”触觉的机械手

Meta 表示，它正在与传感器公司 GelSight 和韩国机器人公司 Wonik Robotics合作，将人工智能触觉传感器商业化。这些新设备并非面向消费者，而是面向科学家。M…

王浩然
2024年11月2日
000
AI前沿

“个性化、不受限制”的人工智能实验室 Nous Research 推出首个开启推理模型：DeepHermes-3

人工智能推理模型——在文本中产生“思路链”（CoT）并反思自己的分析以尝试在输出响应之前中途捕捉错误的模型——现在风靡一时，这要归功于DeepSeek和OpenAI 的“o”系列。…

王浩然
2025年2月18日
000
AI前沿

AI 需求激增推动亚太数据中心加速转型：技术革新与可持续发展的双重突破

在全球人工智能技术飞速发展的浪潮中，亚太地区正成为 AI 应用落地的核心阵地之一，企业对 AI 技术的规模化采用，不仅重塑着各行各业的运营模式，更对支撑这一变革的数据中心基础设施提…

王浩然
2025年10月6日
000
AI前沿

Meta 让企业能够创建嵌入广告的聊天机器人

在周三于门洛帕克举行的Meta Connect 2024 开发者大会上，Meta 宣布将利用点击消息广告将其人工智能商业聊天机器人扩展到 WhatsApp 和 Messenger …

王浩然
2024年9月29日
000
AI前沿

埃隆·马斯克脑机接口公司成功融资6.5亿美元‌

在科技日新月异的今天，每一次的技术革新都似乎在预示着一个新时代的到来。近日，埃隆·马斯克的脑机接口公司——Neuralink，宣布成功完成了6.5亿美元的E轮融资，这一消息无疑在科…

王浩然
2025年6月6日
000
AI前沿

打破无效循环：企业如何规避AI“Doomprompting”陷阱，实现高效增长

自20世纪50年代人工智能（AI）的理论概念提出以来，这项技术就成为企业提升机遇与生产力的核心驱动力，尤其是机器学习系统的应用，极大优化了企业的预测与决策能力，为后续技术革新奠定了…

王浩然
2026年1月26日
000
AI前沿

Google DeepMind 研究人员推出新基准以提高 LLM 真实性并减少幻觉

幻觉，即事实不准确的回答，继续困扰大型语言模型 (LLM)。当模型被赋予更复杂的任务，并且当用户寻求具体且高度详细的回答时，模型尤其会失效。这是数据科学家一直努力克服的一个挑战…

王浩然
2025年1月11日
000
AI前沿

Hugging Face 将“Pi-Zero”引入 LeRobot，使人工智能机器人更易于构建和部署

Hugging Face和Physical Intelligence本周悄然推出了Pi0（Pi-Zero），这是第一个将自然语言命令直接转化为身体动作的机器人基础模型。 Hugg…

王浩然
2025年2月9日
000
AI前沿

从日志到洞察：AI突破重塑可观测性的核心价值

在数字化业务高速发展的今天，企业IT架构正从传统单体系统向云原生、微服务、Serverless等分布式架构演进，业务链路的复杂度呈指数级增长。可观测性作为保障系统稳定运行、提升运维…

王浩然
2025年11月6日
000
AI前沿

亚马逊关闭更多无收银员便利店

亚马逊已关闭另外三家采用“Just Walk Out”技术的商店，但该公司表示，仍致力于将该技术拓展为第三方商家的服务。据The Information周五证实，这家电子商务巨头…

王浩然
2024年10月8日
000
AI前沿

Gemini 2.5 Pro 正式发布：无限制使用且价格更亲民

在人工智能领域，谷歌一直以其强大的技术实力和创新能力引领潮流。近日，谷歌宣布其最新研发的Gemini 2.5 Pro模型正式面向公众开放，并且以更加亲民的价格和无限制的使用条件，向…

王浩然
2025年4月6日
000
AI前沿

移动端Shadow AI：企业风险的隐形盲区，正在重塑业务威胁格局

人工智能正在以前所未有的速度渗透到企业运营的各个环节，从文档摘要、合同起草到代码生成和工作流自动化，AI工具已经成为职场人日常工作中不可或缺的一部分。但在企业官方批准的AI应用之外…

王浩然
2026年3月11日
000
AI前沿

Reddit押注AI搜索：从流量红利到营收新引擎的野心

在周四发布的2025年第四季度财报中，Reddit交出了一份远超华尔街预期的成绩单：季度营收达到7.26亿美元，同比增长70%，净利润2.52亿美元；全年营收突破22亿美元，净利润…

王浩然
2026年2月10日
000
AI前沿

Pika 1.5 再次更新，新增更多 AI 视频效果：碎裂、溶解、缩小、吃惊

Pika又名 Pika Labs 或 Pika AI，是一家总部位于加利福尼亚州帕洛阿尔托的初创公司，已筹集 5500 万美元，利用同名的视频 AI 模型颠覆视频制作领域，目前，该…

王浩然
2024年10月19日
000
AI前沿

新的 NFL 投注应用程序利用人工智能来平衡比赛

随着劳动节的过去和职业橄榄球赛季的正式开始，体育分析公司 Field Vision Sports 推出了所谓的首款移动应用程序，提供基于人工智能和机器学习的 NFL 比赛预测，让投…

点点
2024年9月11日
000
AI前沿

谷歌首席执行官 Sundar Pichai 宣布为全球人工智能教育设立 1.2 亿美元基金

谷歌首席执行官桑达尔·皮查伊 (Sundar Pichai) 周六在联合国未来峰会上发表讲话，将人工智能描述为“迄今为止最具变革性的技术”，并宣布在全球范围内设立一项用于人工智能教…

王浩然
2024年9月23日
000

发表回复

Please Login to Comment

体验时代：自我学习的AI代理将遍布网络，如何做好准备

相关推荐

发表回复