数学推理

AI前沿

谷歌新 AI 训练方法 SRL：助力小模型攻克复杂推理，平衡效率与性能

谷歌云与加州大学洛杉矶分校（UCLA）的研究人员提出一种名为 “监督强化学习（Supervised Reinforcement Learning, SRL）” 的新型强化学习框架，…

王浩然
2025年11月19日
000
AI前沿

微博开源 AI 模型 VibeThinker-1.5B：低成本突破性能壁垒，在数学与代码任务中超越 DeepSeek-R1

中国社交平台巨头微博旗下 AI 部门正式发布开源大语言模型 VibeThinker-1.5B。该模型基于阿里巴巴 Qwen2.5-Math-1.5B 基座模型微调而成，参数量仅 1…

王浩然
2025年11月16日
000
AI前沿

蚂蚁集团 Ring-1T 模型深度解析：破解万亿级强化学习瓶颈，开源推理模型迈入新高度

2025 年 10 月 24 日，阿里巴巴旗下蚂蚁集团正式公布万亿参数开源推理模型 Ring-1T 的技术细节。这款被称为 “全球首个万亿参数开源推理模型” 的产品，不仅以参数规模…

王浩然
2025年10月27日
000
AI前沿

美团开源AI模型LongCat-Flash系列：挑战GPT-5的中国力量‌

中国领先的生活服务电商平台美团在人工智能领域迈出重要一步，其最新开源的大型语言模型家族LongCat-Flash系列正引发全球AI社区广泛关注。这个包含基础模型LongCat-Fl…

王浩然
2025年9月28日
000
AI前沿

腾讯R-Zero突破AI训练瓶颈：无需人工标注的大语言模型自进化之路‌

在人工智能研发面临数据标注成本高企的行业痛点之际，腾讯AI Lab与华盛顿大学联合研发的R-Zero框架为行业开辟了一条革命性路径。这项发表于2025年8月的突破性研究证明，大语言…

王浩然
2025年8月31日
000
AI前沿

字节跳动开源Seed-OSS-36B模型：512K超长上下文架构重塑开源LLM格局‌

在全球AI竞赛进入白热化的2025年夏季，字节跳动旗下Seed团队突然在Hugging Face平台开源Seed-OSS-36B系列大语言模型，凭借512K tokens的行业领先…

王浩然
2025年8月22日
000
AI前沿

DeepSeek-Prover-V2：搭建非正式与正式数学推理之间的桥梁

随着人工智能技术的不断进步，AI在解决各种复杂问题方面展现出了惊人的潜力。然而，在数学领域，尤其是在正式定理证明方面，AI仍面临巨大挑战。近期，DeepSeek-AI团队推出的De…

王浩然
2025年5月12日
000
AI前沿

d1推理框架：将AI响应时间从30秒缩短至3秒‌

研究人员近日推出了d1，这是一个使用强化学习（RL）的新型框架，旨在显著提升基于扩散的大型语言模型（dLLMs）的推理能力。尽管目前大部分注意力都集中在诸如GPT等自回归模型上，但…

王浩然
2025年4月29日
000