强化学习
-
Sakana推出新型AI架构:连续思维机器,让模型像人脑一样自主推理
东京的人工智能初创公司Sakana,由前谷歌顶级AI科学家Llion Jones和David Ha等人联合创立,近日推出了一种全新的AI模型架构——连续思维机器(Continuou…
-
DeepSeek-Prover-V2:搭建非正式与正式数学推理之间的桥梁
随着人工智能技术的不断进步,AI在解决各种复杂问题方面展现出了惊人的潜力。然而,在数学领域,尤其是在正式定理证明方面,AI仍面临巨大挑战。近期,DeepSeek-AI团队推出的De…
-
阿里巴巴的ZeroSearch:让AI学会自我搜索,训练成本直降88%
阿里巴巴集团的研究人员开发出了一种创新方法,有望显著降低训练AI系统进行信息搜索的成本和复杂性,甚至完全消除对昂贵商业搜索引擎API的依赖。这项技术被命名为“ZeroSearch”…
-
Microsoft发布Phi-4-reasoning-plus:小巧而强大的开源权重推理模型
近日,Microsoft Research宣布推出Phi-4-reasoning-plus,这是一款专为需要深入、结构化推理的任务设计的开源权重语言模型。该模型在Phi-4的基础上…
-
体验时代:自我学习的AI代理将遍布网络,如何做好准备
在人工智能领域,两位知名科学家——大卫·西尔弗和理查德·萨顿在一篇新论文中提出了一个引人注目的观点:人工智能即将进入一个全新的阶段,即“体验时代”。在这个阶段,AI系统将越来越少地…
-
RAGEN AI框架:解决大型语言模型(LLM)代理的不稳定性问题
在人工智能(AI)领域,大型语言模型(LLM)的应用日益广泛,但在处理复杂情境时,这些模型的稳定性却成为了一个亟待解决的问题。近日,一项由西北大学、斯坦福大学、微软和纽约大学等机构…
-
d1推理框架:将AI响应时间从30秒缩短至3秒
研究人员近日推出了d1,这是一个使用强化学习(RL)的新型框架,旨在显著提升基于扩散的大型语言模型(dLLMs)的推理能力。尽管目前大部分注意力都集中在诸如GPT等自回归模型上,但…
-
秉承伦理训练的AI初创公司Pleias发布新型小型推理模型
在人工智能领域,伦理与技术的结合日益成为关注的焦点。法国AI初创公司Pleias在这一背景下,凭借其秉承伦理训练的AI技术,成功吸引了业界的广泛关注。近日,Pleias宣布推出两款…
-
RAGEN:一种训练可靠AI代理的新方法
在人工智能(AI)领域,2025年曾被众多专家预测为AI代理的元年。然而,现实情况却并非如此。尽管基于大型语言模型(LLMs)的AI代理在实验室中取得了显著进展,但在实际企业应用中…
-
SWiRL:打造如顶尖问题解决者般的AI商业应用新篇章
在AI技术日新月异的今天,斯坦福大学与谷歌DeepMind的研究人员携手推出了Step-Wise Reinforcement Learning(SWiRL)技术,旨在为大型语言模型…