强化学习 (RL)
-
Meta DreamGym 框架:在模拟世界训练 AI 智能体,大幅降低强化学习成本
Meta 联合芝加哥大学、加州大学伯克利分校的研究人员共同开发出一款名为 DreamGym 的全新框架,专门解决强化学习(RL)训练大语言模型(LLM)智能体时面临的高成本、基础设…
-
Thinking Machines 挑战 OpenAI 的 AI 规模化策略:首个人工超级智能将是 “超级学习者”
2025 年 10 月 24 日,人工智能初创公司 Thinking Machines Lab 的强化学习研究员拉斐尔・拉法伊洛夫(Rafael Rafailov)在旧金山 TED…
-
蚂蚁集团 Ring-1T 模型深度解析:破解万亿级强化学习瓶颈,开源推理模型迈入新高度
2025 年 10 月 24 日,阿里巴巴旗下蚂蚁集团正式公布万亿参数开源推理模型 Ring-1T 的技术细节。这款被称为 “全球首个万亿参数开源推理模型” 的产品,不仅以参数规模…
-
MIT SEAL 技术:开启语言模型自主进化时代,重塑 AI 自我提升范式
当传统大语言模型(LLMs)因依赖人工标注数据、无法动态适配新任务而陷入 “能力停滞”,MIT 团队推出的 SEAL(Self-Adapting LLMs)技术,以 “模型自主生成…
-
DeepSeek发布新技术:打造更智能、可扩展的AI奖励模型
DeepSeek AI,这家以强大开源语言模型著称的中国研究实验室,最近公布了一项重大技术突破。其新研发的Self-Principled Critique Tuning(SPCT)…