强化学习

AI前沿

S3：全新RAG框架，以极少量数据训练搜索代理‌

在人工智能的广阔天地中，检索增强生成（RAG）系统正逐渐成为提升信息检索与生成能力的关键。近日，来自美国伊利诺伊大学厄巴纳-香槟分校的研究人员提出了一种名为S3的创新框架，该框架旨…

王浩然
2025年5月30日
000
AI前沿

Mistral AI发布Devstral：强大的开源软件工程师代理模型，可在笔记本电脑上运行‌

法国AI模型制造商Mistral AI自去年秋季推出其强大的开源基础模型以来，便持续在AI领域展现出卓越的创新能力。然而，近期Mistral因发布了一款名为Medium 3的专有大…

王浩然
2025年5月23日
000
AI前沿

Sakana推出新型AI架构：连续思维机器，让模型像人脑一样自主推理

东京的人工智能初创公司Sakana，由前谷歌顶级AI科学家Llion Jones和David Ha等人联合创立，近日推出了一种全新的AI模型架构——连续思维机器（Continuou…

王浩然
2025年5月13日
000
AI前沿

DeepSeek-Prover-V2：搭建非正式与正式数学推理之间的桥梁

随着人工智能技术的不断进步，AI在解决各种复杂问题方面展现出了惊人的潜力。然而，在数学领域，尤其是在正式定理证明方面，AI仍面临巨大挑战。近期，DeepSeek-AI团队推出的De…

王浩然
2025年5月12日
000
AI前沿

阿里巴巴的ZeroSearch：让AI学会自我搜索，训练成本直降88%

阿里巴巴集团的研究人员开发出了一种创新方法，有望显著降低训练AI系统进行信息搜索的成本和复杂性，甚至完全消除对昂贵商业搜索引擎API的依赖。这项技术被命名为“ZeroSearch”…

王浩然
2025年5月10日
000
AI前沿

Microsoft发布Phi-4-reasoning-plus：小巧而强大的开源权重推理模型

近日，Microsoft Research宣布推出Phi-4-reasoning-plus，这是一款专为需要深入、结构化推理的任务设计的开源权重语言模型。该模型在Phi-4的基础上…

王浩然
2025年5月6日
000
AI前沿

体验时代：自我学习的AI代理将遍布网络，如何做好准备

在人工智能领域，两位知名科学家——大卫·西尔弗和理查德·萨顿在一篇新论文中提出了一个引人注目的观点：人工智能即将进入一个全新的阶段，即“体验时代”。在这个阶段，AI系统将越来越少地…

王浩然
2025年5月6日
000
AI前沿

RAGEN AI框架：解决大型语言模型（LLM）代理的不稳定性问题

在人工智能（AI）领域，大型语言模型（LLM）的应用日益广泛，但在处理复杂情境时，这些模型的稳定性却成为了一个亟待解决的问题。近日，一项由西北大学、斯坦福大学、微软和纽约大学等机构…

王浩然
2025年5月3日
000
AI前沿

d1推理框架：将AI响应时间从30秒缩短至3秒‌

研究人员近日推出了d1，这是一个使用强化学习（RL）的新型框架，旨在显著提升基于扩散的大型语言模型（dLLMs）的推理能力。尽管目前大部分注意力都集中在诸如GPT等自回归模型上，但…

王浩然
2025年4月29日
000
AI前沿

秉承伦理训练的AI初创公司Pleias发布新型小型推理模型

在人工智能领域，伦理与技术的结合日益成为关注的焦点。法国AI初创公司Pleias在这一背景下，凭借其秉承伦理训练的AI技术，成功吸引了业界的广泛关注。近日，Pleias宣布推出两款…

王浩然
2025年4月26日
000