强化学习
-
S3:全新RAG框架,以极少量数据训练搜索代理
在人工智能的广阔天地中,检索增强生成(RAG)系统正逐渐成为提升信息检索与生成能力的关键。近日,来自美国伊利诺伊大学厄巴纳-香槟分校的研究人员提出了一种名为S3的创新框架,该框架旨…
-
Mistral AI发布Devstral:强大的开源软件工程师代理模型,可在笔记本电脑上运行
法国AI模型制造商Mistral AI自去年秋季推出其强大的开源基础模型以来,便持续在AI领域展现出卓越的创新能力。然而,近期Mistral因发布了一款名为Medium 3的专有大…
-
Sakana推出新型AI架构:连续思维机器,让模型像人脑一样自主推理
东京的人工智能初创公司Sakana,由前谷歌顶级AI科学家Llion Jones和David Ha等人联合创立,近日推出了一种全新的AI模型架构——连续思维机器(Continuou…
-
DeepSeek-Prover-V2:搭建非正式与正式数学推理之间的桥梁
随着人工智能技术的不断进步,AI在解决各种复杂问题方面展现出了惊人的潜力。然而,在数学领域,尤其是在正式定理证明方面,AI仍面临巨大挑战。近期,DeepSeek-AI团队推出的De…
-
阿里巴巴的ZeroSearch:让AI学会自我搜索,训练成本直降88%
阿里巴巴集团的研究人员开发出了一种创新方法,有望显著降低训练AI系统进行信息搜索的成本和复杂性,甚至完全消除对昂贵商业搜索引擎API的依赖。这项技术被命名为“ZeroSearch”…
-
Microsoft发布Phi-4-reasoning-plus:小巧而强大的开源权重推理模型
近日,Microsoft Research宣布推出Phi-4-reasoning-plus,这是一款专为需要深入、结构化推理的任务设计的开源权重语言模型。该模型在Phi-4的基础上…
-
体验时代:自我学习的AI代理将遍布网络,如何做好准备
在人工智能领域,两位知名科学家——大卫·西尔弗和理查德·萨顿在一篇新论文中提出了一个引人注目的观点:人工智能即将进入一个全新的阶段,即“体验时代”。在这个阶段,AI系统将越来越少地…
-
RAGEN AI框架:解决大型语言模型(LLM)代理的不稳定性问题
在人工智能(AI)领域,大型语言模型(LLM)的应用日益广泛,但在处理复杂情境时,这些模型的稳定性却成为了一个亟待解决的问题。近日,一项由西北大学、斯坦福大学、微软和纽约大学等机构…
-
d1推理框架:将AI响应时间从30秒缩短至3秒
研究人员近日推出了d1,这是一个使用强化学习(RL)的新型框架,旨在显著提升基于扩散的大型语言模型(dLLMs)的推理能力。尽管目前大部分注意力都集中在诸如GPT等自回归模型上,但…
-
秉承伦理训练的AI初创公司Pleias发布新型小型推理模型
在人工智能领域,伦理与技术的结合日益成为关注的焦点。法国AI初创公司Pleias在这一背景下,凭借其秉承伦理训练的AI技术,成功吸引了业界的广泛关注。近日,Pleias宣布推出两款…