强化学习
-
RAGEN AI框架:解决大型语言模型(LLM)代理的不稳定性问题
在人工智能(AI)领域,大型语言模型(LLM)的应用日益广泛,但在处理复杂情境时,这些模型的稳定性却成为了一个亟待解决的问题。近日,一项由西北大学、斯坦福大学、微软和纽约大学等机构…
-
d1推理框架:将AI响应时间从30秒缩短至3秒
研究人员近日推出了d1,这是一个使用强化学习(RL)的新型框架,旨在显著提升基于扩散的大型语言模型(dLLMs)的推理能力。尽管目前大部分注意力都集中在诸如GPT等自回归模型上,但…
-
秉承伦理训练的AI初创公司Pleias发布新型小型推理模型
在人工智能领域,伦理与技术的结合日益成为关注的焦点。法国AI初创公司Pleias在这一背景下,凭借其秉承伦理训练的AI技术,成功吸引了业界的广泛关注。近日,Pleias宣布推出两款…
-
RAGEN:一种训练可靠AI代理的新方法
在人工智能(AI)领域,2025年曾被众多专家预测为AI代理的元年。然而,现实情况却并非如此。尽管基于大型语言模型(LLMs)的AI代理在实验室中取得了显著进展,但在实际企业应用中…
-
SWiRL:打造如顶尖问题解决者般的AI商业应用新篇章
在AI技术日新月异的今天,斯坦福大学与谷歌DeepMind的研究人员携手推出了Step-Wise Reinforcement Learning(SWiRL)技术,旨在为大型语言模型…
-
字节跳动发布Seed-Thinking-v1.5,进军推理AI领域
在AI技术日新月异的今天,各大科技巨头纷纷在推理AI领域展开激烈角逐。近日,字节跳动,这家以TikTok闻名的中国互联网巨头,也正式宣布推出其最新的大型语言模型——Seed-Thi…
-
DeepCoder-14B:以高效140亿参数模型展现顶级编码性能
在AI领域,一款新的编码模型正崭露头角,它就是DeepCoder-14B。这款模型由Together AI和Agentica的研究人员共同推出,其性能表现令人瞩目,与OpenAI的…
-
少即是多:加州大学伯克利分校与谷歌通过简单采样解锁大型语言模型潜力
在人工智能领域,大型语言模型(LLMs)的推理能力一直是研究者和开发者关注的焦点。近期,来自谷歌研究和加州大学伯克利分校的研究人员发表了一篇新论文,揭示了一种令人惊讶的简单测试时间…
-
超越RAG:SEARCH-R1将搜索引擎直接融入推理模型
在人工智能(AI)领域,大型语言模型(LLM)的推理能力取得了显著进步。然而,这些模型在结合推理能力正确引用和使用外部数据——即它们未接受训练的信息——方面仍存在较大不足。这一问题…
-
LLM新技术:控制CoT长度,优化推理,降低成本
一、引言 在人工智能领域,大型语言模型(LLM)通过“链式思考”(Chain of Thought,简称CoT)进行推理已成为最新一代模型的关键特征。这种推理过程涉及将复杂问题分解…