Meta FAIR推进类人AI:五大重磅发布

Meta FAIR推进类人AI:五大重磅发布

Meta公司的Fundamental AI Research(FAIR)团队最近宣布了五项重大进展,这些成果标志着Meta在追求高级机器智能(AMI)的道路上迈出了坚实的一步。此次发布的重点集中在提升AI的感知能力、语言建模、机器人技术以及协同AI代理方面,旨在打造能够像人类一样感知、理解和与世界互动的机器。

类人AI的五大支柱

感知编码器:锐化AI的“视觉”

感知编码器是此次发布的核心之一,它是一个大规模的视觉编码器,旨在各种图像和视频任务中表现出色。视觉编码器作为AI系统的“眼睛”,使AI能够理解视觉数据。Meta强调,构建能够满足高级AI需求的编码器是一项巨大挑战,这些需求包括跨越视觉和语言的桥梁、有效处理图像和视频,以及在恶劣条件下保持鲁棒性。

感知编码器据称在图像和视频的零样本分类和检索任务上取得了卓越性能,超越了所有现有的开源和专有模型。此外,当与大型语言模型(LLM)结合时,该编码器在视觉问答(VQA)、图像描述、文档理解和文本到图像区域的链接等任务上也表现出色。

感知语言模型(PLM):视觉与语言的桥梁

与感知编码器相辅相成的是感知语言模型(PLM),这是一个开放且可复现的视觉-语言模型,专注于复杂的视觉识别任务。PLM通过大规模合成数据与开放视觉-语言数据集的结合进行训练,没有从外部专有模型中提炼知识。Meta还收集了250万个新的人类标注样本,专注于细粒度的视频问答和时空图像描述,形成了迄今为止同类数据集中最大的一个。

PLM以10亿、30亿和80亿参数版本提供,满足学术研究对透明度的需求。Meta还发布了PLM-VideoBench,这是一个新的基准测试,专门用于评估现有基准测试中经常遗漏的能力,如细粒度活动理解和时空链接推理。

Meta Locate 3D:赋予机器人环境感知能力

Meta Locate 3D是一个端到端模型,旨在使机器人能够根据开放式自然语言查询在3D环境中准确定位物体。该模型直接处理来自RGB-D传感器的3D点云数据,通过理解空间关系和上下文来精确识别指定物体。Meta还发布了一个基于指代表达式的大规模新数据集,用于物体定位,有效加倍了该领域现有的标注数据。

动态字节潜在变换器:高效且稳健的语言建模

动态字节潜在变换器是Meta在2024年底研究基础上发布的80亿参数模型。该模型摒弃了传统的基于令牌的语言建模方法,转而采用字节级别的处理方式。Meta声称这种方法在保持大规模性能的同时,显著提高了推理效率和稳健性。动态字节潜在变换器在多个任务上表现出比基于令牌的方法更高的鲁棒性,尤其是在处理拼写错误、新词或对抗性输入时。

协作推理器:推动社会智能AI代理的发展

协作推理器是Meta发布的最后一个模型,它旨在解决创建能够有效与人类或其他AI协作的AI代理的复杂挑战。人类协作往往能产生更好的结果,Meta希望将这种能力赋予AI,以便在家庭作业辅导、面试准备等任务中发挥作用。协作推理器包括需要通过两个代理之间对话实现的多步骤推理任务,测试了建设性不同意、说服伙伴和达成最佳共享解决方案等能力。

Meta对AI未来的展望

这五项发布共同展示了Meta在基础AI研究方面的持续投资,特别是在构建能够感知、理解和与世界互动的机器方面。通过感知编码器、PLM、Meta Locate 3D、动态字节潜在变换器和协作推理器,Meta正朝着创造更智能、更灵活的AI系统的目标迈进。

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/meta-fair-tui-jin-lei-ren-ai-wu-da-zhong-bang-fa-bu

Like (0)
王 浩然的头像王 浩然作者
Previous 2025年5月4日 下午7:00
Next 2025年5月5日

相关推荐

发表回复

Please Login to Comment