工具使用
-
MCP-Universe基准测试揭示GPT-5在现实世界任务编排中的局限性:过半企业级场景表现不及预期
Salesforce AI研究院最新发布的开源基准测试MCP-Universe对当前主流大语言模型进行了全面评估,结果显示即使是OpenAI最新发布的GPT-5,在模拟企业真实工作…
-
SWiRL:打造如顶尖问题解决者般的AI商业应用新篇章
在AI技术日新月异的今天,斯坦福大学与谷歌DeepMind的研究人员携手推出了Step-Wise Reinforcement Learning(SWiRL)技术,旨在为大型语言模型…
-
超越RAG:SEARCH-R1将搜索引擎直接融入推理模型
在人工智能(AI)领域,大型语言模型(LLM)的推理能力取得了显著进步。然而,这些模型在结合推理能力正确引用和使用外部数据——即它们未接受训练的信息——方面仍存在较大不足。这一问题…