
在人工智能领域,大型语言模型(LLMs)已经展现了其在文本处理方面的卓越能力,但在物理世界的动态环境中,它们却常常显得力不从心。这主要是因为LLMs缺乏物理“常识”,难以理解和应对现实世界中的因果关系。为了弥补这一缺陷,Meta推出了其最新的世界模型——V-JEPA 2,该模型能够从视频和物理交互中学习,为机器人在不可预测的环境中预测结果和规划行动提供了可能。
一、世界模型的规划与学习
人类从小通过观察周围环境来发展物理直觉。例如,当我们看到被扔出的球时,能够本能地预测其轨迹和落点。V-JEPA 2通过学习类似的“世界模型”,即AI系统对物理世界如何运作的内部模拟,来具备这种能力。这个世界模型基于三个核心能力:理解场景中的情况,预测行动将如何改变场景,以及规划实现特定目标的行动序列。
Meta在其博客中表示,其“长期愿景是让世界模型使AI代理能够在物理世界中规划和推理”。V-JEPA 2的架构,即视频联合嵌入预测架构,由两个关键部分组成:编码器和预测器。编码器观看视频片段并将其压缩成紧凑的数字摘要,即嵌入,该嵌入捕获了场景中物体及其关系的重要信息。预测器则接收这个摘要,并想象场景将如何演变,生成下一个摘要的预测。
二、从观察与行动中学习
V-JEPA 2的训练分为两个阶段。首先,它通过自监督学习建立对物理的基础理解,观看了超过一百万小时的未标记互联网视频。通过简单观察物体的移动和相互作用,它开发了一个无需人类指导的通用世界模型。在第二阶段,这个预训练模型在一个小型的、专门的数据集上进行微调。通过处理仅62小时的机器人执行任务的视频,以及相应的控制命令,V-JEPA 2学会了将特定行动与其物理结果联系起来。
这种两阶段训练为现实世界自动化提供了一项关键能力:零样本机器人规划。由V-JEPA 2驱动的机器人可以在新环境中部署,并成功操控它从未遇到过的物体,而无需为该特定设置进行重新训练。这是对之前模型的重大改进,因为之前的模型需要来自确切机器人和环境的训练数据。
三、现实世界的影响与应用
V-JEPA 2在新型情况下进行规划和行动的能力对业务运营有着直接影响。在物流和制造业中,它允许机器人更加灵活,能够处理产品和仓库布局的变化,而无需大量重新编程。这对于公司探索在工厂和装配线上部署人形机器人尤其有用。
同样的世界模型还可以为高度逼真的数字孪生提供动力,使公司能够模拟新流程或在物理准确的虚拟环境中训练其他AI。在工业环境中,模型可以监控机器的视频馈送,并根据其学习的物理理解预测安全问题和故障,从而提前采取措施。
四、未来展望
Meta的这一研究是朝着其所谓的“高级机器智能(AMI)”迈出的关键一步,其中AI系统可以“像人类一样了解世界,规划如何执行不熟悉的任务,并高效地适应不断变化的世界”。Meta已经发布了该模型及其训练代码,并希望“围绕这项研究建立一个广泛的社区,推动朝着开发能够改变AI与物理世界交互方式的世界模型这一最终目标取得进展”。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/meta-xin-shi-jie-mo-xing-rang-ji-qi-ren-zai-wei-zhi-huan