数学推理
-
谷歌新 AI 训练方法 SRL:助力小模型攻克复杂推理,平衡效率与性能
谷歌云与加州大学洛杉矶分校(UCLA)的研究人员提出一种名为 “监督强化学习(Supervised Reinforcement Learning, SRL)” 的新型强化学习框架,…
-
微博开源 AI 模型 VibeThinker-1.5B:低成本突破性能壁垒,在数学与代码任务中超越 DeepSeek-R1
中国社交平台巨头微博旗下 AI 部门正式发布开源大语言模型 VibeThinker-1.5B。该模型基于阿里巴巴 Qwen2.5-Math-1.5B 基座模型微调而成,参数量仅 1…
-
蚂蚁集团 Ring-1T 模型深度解析:破解万亿级强化学习瓶颈,开源推理模型迈入新高度
2025 年 10 月 24 日,阿里巴巴旗下蚂蚁集团正式公布万亿参数开源推理模型 Ring-1T 的技术细节。这款被称为 “全球首个万亿参数开源推理模型” 的产品,不仅以参数规模…
-
美团开源AI模型LongCat-Flash系列:挑战GPT-5的中国力量
中国领先的生活服务电商平台美团在人工智能领域迈出重要一步,其最新开源的大型语言模型家族LongCat-Flash系列正引发全球AI社区广泛关注。这个包含基础模型LongCat-Fl…
-
腾讯R-Zero突破AI训练瓶颈:无需人工标注的大语言模型自进化之路
在人工智能研发面临数据标注成本高企的行业痛点之际,腾讯AI Lab与华盛顿大学联合研发的R-Zero框架为行业开辟了一条革命性路径。这项发表于2025年8月的突破性研究证明,大语言…
-
字节跳动开源Seed-OSS-36B模型:512K超长上下文架构重塑开源LLM格局
在全球AI竞赛进入白热化的2025年夏季,字节跳动旗下Seed团队突然在Hugging Face平台开源Seed-OSS-36B系列大语言模型,凭借512K tokens的行业领先…
-
DeepSeek-Prover-V2:搭建非正式与正式数学推理之间的桥梁
随着人工智能技术的不断进步,AI在解决各种复杂问题方面展现出了惊人的潜力。然而,在数学领域,尤其是在正式定理证明方面,AI仍面临巨大挑战。近期,DeepSeek-AI团队推出的De…
-
d1推理框架:将AI响应时间从30秒缩短至3秒
研究人员近日推出了d1,这是一个使用强化学习(RL)的新型框架,旨在显著提升基于扩散的大型语言模型(dLLMs)的推理能力。尽管目前大部分注意力都集中在诸如GPT等自回归模型上,但…