强化学习 (RL)

AI前沿

突破数学与编程局限：新型强化学习框架助力训练复杂现实任务的 LLM 智能体

Agent-R1 的新型强化学习（RL）框架，突破传统强化学习在数学、编程等明确任务场景的局限，聚焦多轮交互、动态环境下的复杂智能体任务训练，为企业级真实场景的 LLM 智能体应用…

王浩然
2025年12月16日
000
AI前沿

Meta DreamGym 框架：在模拟世界训练 AI 智能体，大幅降低强化学习成本

Meta 联合芝加哥大学、加州大学伯克利分校的研究人员共同开发出一款名为 DreamGym 的全新框架，专门解决强化学习（RL）训练大语言模型（LLM）智能体时面临的高成本、基础设…

王浩然
2025年11月21日
000
AI前沿

Thinking Machines 挑战 OpenAI 的 AI 规模化策略：首个人工超级智能将是 “超级学习者”

2025 年 10 月 24 日，人工智能初创公司 Thinking Machines Lab 的强化学习研究员拉斐尔・拉法伊洛夫（Rafael Rafailov）在旧金山 TED…

王浩然
2025年10月27日
000
AI前沿

蚂蚁集团 Ring-1T 模型深度解析：破解万亿级强化学习瓶颈，开源推理模型迈入新高度

2025 年 10 月 24 日，阿里巴巴旗下蚂蚁集团正式公布万亿参数开源推理模型 Ring-1T 的技术细节。这款被称为 “全球首个万亿参数开源推理模型” 的产品，不仅以参数规模…

王浩然
2025年10月27日
000
AI前沿

MIT SEAL 技术：开启语言模型自主进化时代，重塑 AI 自我提升范式

当传统大语言模型（LLMs）因依赖人工标注数据、无法动态适配新任务而陷入 “能力停滞”，MIT 团队推出的 SEAL（Self-Adapting LLMs）技术，以 “模型自主生成…

王浩然
2025年10月15日
000
AI前沿

DeepSeek发布新技术：打造更智能、可扩展的AI奖励模型

DeepSeek AI，这家以强大开源语言模型著称的中国研究实验室，最近公布了一项重大技术突破。其新研发的Self-Principled Critique Tuning（SPCT）…

王浩然
2025年4月11日
000