
在人工智能领域,两位知名科学家——大卫·西尔弗和理查德·萨顿在一篇新论文中提出了一个引人注目的观点:人工智能即将进入一个全新的阶段,即“体验时代”。在这个阶段,AI系统将越来越少地依赖人类提供的数据,而是通过与世界的交互和从中收集的数据来自我提升。尽管这篇论文具有概念性和前瞻性,但它对旨在为未来AI代理和系统构建的企业具有直接的影响。
西尔弗和萨顿都是经验丰富的科学家,他们在预测AI未来的准确性上有着卓越的记录,这在当今最先进的AI系统中得到了直接体现。2019年,强化学习先驱萨顿撰写了著名论文《苦涩的教训》,他在文中主张,AI领域取得的最大长期进展始终源于利用大规模计算和通用搜索与学习方法的结合,而不是主要依赖于整合复杂的人类衍生领域知识。大卫·西尔弗是DeepMind的高级科学家,他对AlphaGo、AlphaZero和AlphaStar等深度强化学习的重要成果做出了关键贡献。他还是2021年一篇论文的合著者,该论文声称强化学习和设计良好的奖励信号足以创建非常先进的AI系统。最新的大型语言模型(LLMs)正是利用了这两个概念。
自GPT-3以来席卷AI领域的LLMs新浪潮,主要依赖于计算和数据规模的扩展,以内化大量知识。而最近一波推理模型,如DeepSeek-R1,已经证明,强化学习和一个简单的奖励信号足以学习复杂的推理技能。
“体验时代”建立在西尔弗和萨顿近年来一直在讨论的概念之上,并将它们适应了AI的最新进展。作者认为,“仅依靠人类数据的监督学习所推动的进步速度明显放缓,这预示着需要一种新的方法。”这种方法需要一种新的数据来源,这种数据必须以一种随着代理变得越来越强大而不断改进的方式生成。“这可以通过允许代理从它们自己的经验中不断学习来实现,即代理与环境交互产生的数据,”萨顿和西尔弗写道。他们主张,最终,“体验将成为改进的主要媒介,并最终远远超过当今系统中使用的人类数据的规模。”
据作者介绍,除了从自己的经验数据中学习外,未来的AI系统还将在四个维度上“突破以人类为中心的AI系统的限制”:
- 流:AI代理将不再局限于断开连接的事件,而是像人类一样,在长时间尺度上拥有自己的经验流。这将使代理能够规划长期目标,并随着时间的推移适应新的行为模式。我们可以在具有非常长的上下文窗口和基于用户交互连续更新的内存架构的AI系统中看到这种趋势的端倪。
- 行为和观察:在体验时代,代理将不再专注于人类特权的行为和观察,而是将在真实世界中自主行动。这方面的例子包括能够通过计算机使用和模型上下文协议(MCP)等工具与外部应用程序和资源交互的代理系统。
- 奖励:当前的强化学习系统主要依赖人类设计的奖励函数。在未来,AI代理应该能够设计自己的动态奖励函数,这些函数能够随时间适应,并与从代理在世界中的行为和观察中收集到的真实世界信号相匹配。我们正在看到如Nvidia的DrEureka等自我设计奖励的早期版本。
- 规划和推理:当前的推理模型被设计为模仿人类的思维过程。作者认为,“肯定存在更高效的思维机制,使用非人类语言,例如,可能利用符号、分布式、连续或可微计算。”AI代理应该与世界互动,观察和使用数据来验证和更新其推理过程,并开发世界模型。
AI代理通过强化学习适应环境的想法并不新鲜。但在此之前,这些代理仅限于非常受限的环境,如棋盘游戏。如今,能够与复杂环境(例如AI计算机使用)交互的代理,以及强化学习的进步将克服这些限制,带来向体验时代的过渡。
对企业而言,萨顿和西尔弗的论文中有一个观点将对实际应用产生重要影响:“代理可以使用‘人类友好’的行为和观察,如用户界面,这自然促进了与用户的通信和协作。代理还可以执行‘机器友好’的行为,这些行为执行代码并调用API,允许代理为实现其目标而自主行动。”
体验时代意味着开发者在构建应用程序时,不仅要考虑人类用户,还要考虑AI代理。机器友好的行为要求构建安全且可访问的API,这些API可以直接或通过如MCP等接口轻松访问。这也意味着创建可以通过如Google的Agent2Agent等协议发现的代理。你还需要设计API和代理接口,以提供对行为和观察的访问。这将使代理能够逐渐推理并从与你的应用程序的交互中学习。
如果萨顿和西尔弗所描绘的愿景成为现实,那么很快就会有数十亿个代理在网络上(并且很快也会在物理世界中)漫游以执行任务。它们的行为和需求将与人类用户和开发者截然不同,而拥有一个代理友好的与你的应用程序交互的方式,将提高你利用未来AI系统的能力(并防止它们可能造成的危害)。“通过建立在强化学习的基础上,并将其核心原则适应这个新时代的挑战,我们可以解锁自主学习的全部潜力,并为实现真正超越人类的智能铺平道路,”萨顿和西尔弗写道。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/ti-yan-shi-dai-zi-wo-xue-xi-de-ai-dai-li-jiang-bian-bu-wang