Salesforce推出新AI基准和模型，解决“锯齿状智能”问题

王浩然 • 2025年5月6日下午5:00 • AI前沿 • 639 views

在人工智能（AI）领域，Salesforce正致力于解决一个长期困扰商业应用的问题：即AI系统的原始智能与其在不可预测的企业环境中持续稳定执行任务的能力之间的差距，Salesforce将此问题称为“锯齿状智能”。在近期的一次综合研究宣布中，Salesforce AI Research揭示了多项新的基准、模型和框架，旨在使未来的AI代理在企业应用中变得更加智能、可信和多功能。

企业通用智能：专为商业复杂性设计

Salesforce的首席科学家兼AI研究负责人西尔维奥·萨瓦雷塞在新闻发布会上表示：“虽然大型语言模型（LLMs）在标准化测试、规划复杂行程和生成精美诗歌方面表现出色，但它们在需要可靠和一致的任务执行时，面对动态且不可预测的企业环境时，往往会显得力不从心。”Salesforce的这一举措代表了其向“企业通用智能”（EGI）的迈进，这是一种专为商业复杂性设计的AI，而不仅仅是追求更理论化的人工通用智能（AGI）。

量化与解决AI性能不一致性

研究的核心之一是量化和解决AI性能的不一致性。Salesforce推出了SIMPLE数据集，这是一个包含225个简单推理问题的公共基准，旨在衡量AI系统能力的真实“锯齿状”程度。研究经理谢尔比·海内克在发布会上解释：“今天的AI是锯齿状的，所以我们需要解决这个问题。但要解决问题，首先得进行测量，这正是SIMPLE基准的作用。”

对于企业应用而言，这种不一致性不仅仅是一个学术问题。AI代理的一个小小失误就可能扰乱运营、损害客户信任或造成巨大的经济损失。萨瓦雷塞强调：“对于企业而言，AI不是一项随意的消遣，而是一个要求绝对可预测性的关键工具。”

CRMArena：模拟真实CRM场景的基准框架

也许最重大的创新是CRMArena，一个旨在模拟真实客户关系管理场景的新型基准框架。它允许在专业环境中对AI代理进行全面测试，填补了学术基准与现实世界业务需求之间的鸿沟。CRMArena从服务代理、分析师和管理员三个关键角色评估代理性能。初步测试显示，即使在有指导提示的情况下，领先代理在这些角色的用例中成功执行功能的比例也不到65%。

技术创新：从深层语境理解到行动预测

Salesforce还公布了一系列技术创新。其中包括SFR-Embedding，一种用于更深层语境理解的新模型，该模型在56个数据集上领先于大规模文本嵌入基准（MTEB）。专为开发人员设计的SFR-Embedding-Code版本则实现了高质量的代码搜索，简化了开发工作。此外，Salesforce还推出了xLAM V2（大型行动模型）系列，这些模型专为预测行动而非仅生成文本而设计，最小的模型仅包含10亿个参数，远小于许多领先的语言模型。

强化信任与安全性：SFR-Guard与ContextualJudgeBench

为了应对企业对AI安全性和可靠性的担忧，Salesforce引入了SFR-Guard模型系列，这些模型经过公开数据和CRM专业内部数据的训练，增强了公司的信任层，为AI代理行为提供了明确的边界。同时，Salesforce还推出了ContextualJudgeBench，一个用于评估基于LLM的法官模型在语境中表现的新型基准，测试了超过2000对具有挑战性的响应对的准确性、简洁性、忠实度和适当的拒绝回答能力。

超越文本：TACO多模态行动模型

Salesforce还展示了TACO，一个旨在通过思维与行动链（CoTA）解决复杂多步骤问题的多模态行动模型系列。这种方法使AI能够解释和响应涉及多种媒体类型的复杂查询，Salesforce声称在具有挑战性的MMVet基准上实现了高达20%的改进。

客户共创与未来展望

AI研究孵化与品牌战略高级总监伊泰·阿西奥强调了客户共创在开发企业就绪AI解决方案中的重要性。他提到，当与客户交流时，一个主要痛点是处理企业数据时，对不准确和不相关答案的容忍度非常低。通过与客户紧密合作，Salesforce在推理引擎、检索增强生成技术等方面取得了显著进展，显著提高了AI性能。

Salesforce的这项研究正值企业AI采用的关键时刻，随着企业越来越寻求结合高级功能与可靠性能的AI系统，Salesforce对一致性差距的关注凸显了一种更加细致入微的AI开发方法，该方法优先考虑现实世界的企业需求而非学术基准。这些技术将在未来几个月内逐步推出，首先是将SFR-Embedding引入Data Cloud，而其他创新将支持Agentforce的未来版本。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/salesforce-tui-chu-xin-ai-ji-zhun-he-mo-xing-jie-jue-ju-chi

AI ContextualJudgeBench CRMArena EGI Salesforce SFR-Embedding SFR-Guard TACO xLAM V2 客户共创锯齿状智能

Like (0)

王浩然作者

0 0

UiPath的新编排器：引导AI代理遵循企业规则

Previous 2025年5月6日

AI在提升开发者效率与技能培养中的角色

Next 2025年5月6日

AI前沿

数千名创意人员签署请愿书，反对人工智能数据抓取

演员凯文·贝肯、小说家石黑一雄、音乐家罗伯特·史密斯、记者兼历史学家西德尼·布卢门撒尔有什么共同点？他们都是 11,500 名签署请愿书的人之一，反对未经许可使用创意作品进行人工智…

王浩然
2024年10月24日
000
AI前沿

Nebius收购Tavily：布局自主AI时代的核心基础设施

在企业AI应用从孤立模型向自主智能体转型的关键节点，云服务提供商Nebius宣布收购实时搜索技术服务商Tavily，这一交易不仅是两家公司的战略整合，更折射出全球AI基础设施市场的…

王浩然
2026年2月13日
000
AI前沿

深度伪造与语音克隆：AI冒充诈骗激增148%的警示录‌

在人工智能技术狂飙突进的今天，一场新型犯罪浪潮正以148%的惊人增速席卷全球。根据身份盗窃资源中心（ITRC）最新报告，2024年4月至2025年3月期间，利用深度伪造（Deepf…

王浩然
2025年9月8日
000
AI前沿

超大型开源 AI DeepSeek-V3 发布时表现超越 Llama 和 Qwen

中国人工智能初创公司 DeepSeek 以其创新的开源技术挑战领先的人工智能供应商而闻名，今天发布了一种新的超大模型：DeepSeek-V3。根据该公司的许可协议，新模型可通过H…

王浩然
2024年12月28日
000
AI前沿

Cerebras 与 Nvidia：新的推理工具有望实现更高的性能2

人工智能硬件初创公司Cerebras创建了一种新的人工智能推理解决方案，可能与 Nvidia 为企业提供的 GPU 产品相媲美。 Cerebras Inference 工具基于该公…

36氪
2024年8月31日
000
AI前沿

色情生成器、作弊工具和“专家”医疗建议：深入探究OpenAI的定制聊天机器人市场

Gizmodo 对 OpenAI 的 GPT 商店进行的分析发现，超过 100 种工具似乎违反了该公司关于性内容、欺骗、法律和医疗建议、赌博、虚假评论生成和浪漫陪伴的政策。去年 …

王浩然
2024年9月5日
000
AI前沿

在智能体浪潮中，AWS 押注结构化合规与规范保真 ——Kiro 正式发布引领 AI 编程新范式

AWS 在竞争激烈的 AI 编程智能体赛道中推出重磅举措，其 AI 编程工具 Kiro 从 7 月的公开预览阶段正式全面可用，并新增多项核心功能，以 “规范驱动开发” 为核心差异化…

王浩然
2025年11月20日
000
AI前沿

Songscription推出AI版“音乐雷达”，打造乐谱识别新神器

在数字化时代，音乐创作与分享的方式正经历着前所未有的变革。近日，一款名为Songscription的创新应用横空出世，它利用人工智能技术，为用户提供了一个类似于“音乐雷达”的功能，…

王浩然
2025年7月3日
000
AI前沿

苹果刚刚将九款Mac机型标记为“过时”

你的“过时”Mac可能仍然工作正常。消费技术正变得非常好——事实上，如此之好，以至于升级到新事物的理由越来越少。我们中的许多人在设备上坚持的时间比以往任何时候都长，Mac也不例外…

free
2024年9月28日
000
AI前沿

从颠覆到重塑：AI时代知识工作者如何繁荣发展‌

随着人工智能技术的飞速发展，知识工作者正面临着前所未有的挑战与机遇。AI的兴起不仅威胁到了许多传统知识密集型职业的安全，更引发了一场关于人类价值与意义的深刻反思。本文将探讨在AI时…

王浩然
2025年5月28日
000
AI前沿

字节跳动豆包大模型静默升级：多模态、128K 上下文与代码能力三重突破

字节跳动旗下 AI 助手豆包（Doubao）近日完成了一次重要的静默升级，新版模型在多模态理解、长上下文处理和代码生成三个维度均取得显著突破，进一步巩固其在国内 AI 助手市场的领…

2026年4月19日
000
AI前沿

现代应用的三款最佳安全容器镜像：保障应用安全的基石

在当今数字化快速发展的时代，现代应用的构建与部署越来越依赖容器技术。容器镜像作为容器的基础，其安全性对于应用的稳定运行和数据保护至关重要。以下为您详细介绍三款适用于现代应用的最佳安…

王浩然
2026年1月7日
000
AI前沿

Gamma推出AI图像生成工具，向Canva与Adobe发起挑战

在AI内容创作工具赛道竞争日益白热化的当下，主打AI演示文稿与网站制作的Gamma平台，于2026年3月17日正式推出全新AI图像生成产品Gamma Imagine，将业务版图拓展…

王浩然
2026年3月21日
000
AI前沿

可解释性AI策略：Anthropic的研究如何影响企业大型语言模型战略

在当今这个人工智能（AI）迅速发展的时代，理解AI模型的决策过程变得越来越重要。Anthropic，这家由前OpenAI员工创立的AI实验室，正致力于开发“可解释性”AI，旨在让模…

王浩然
2025年6月24日
000
AI前沿

思科推出全新 AI 数据中心路由器：直击跨数据中心互联瓶颈，开启 “Scale-Across” 竞争新格局

2025 年 10 月 8 日，网络技术巨头思科（Cisco）正式发布专为 AI 数据中心设计的 8223 路由系统，旨在解决当前 AI 基础设施 “单数据中心容量不足” 的核心痛…

王浩然
2025年10月10日
000
AI前沿

强化差距：为何 AI 在某些任务中表现卓越，在其他任务中却停滞不前

在人工智能（AI）的发展历程中，我们目睹了其在诸多领域展现出令人惊叹的能力。从精准的图像识别，助力医疗影像诊断，到复杂的棋类游戏博弈，战胜人类顶尖棋手，AI 的表现无疑证明了其技术…

王浩然
2026年1月1日
000
AI前沿

人工智能开启开放银行新时代：数据隐私如何成为守护者？‌

2025年金融科技领域最深刻的变革，莫过于人工智能驱动的开放银行模式正在全球范围内拆除金融机构间的数据壁垒。根据Syrenis高级客户经理David McInerney的观察，当8…

王浩然
2025年9月1日
000
AI前沿

Anomalo 的非结构化数据解决方案将企业 AI 部署时间缩短了 30%

长期以来用于结构化数据的数据质量工具现在正扩展到企业 AI 的非结构化数据。Anomalo 就是这样一家供应商，该公司多年来一直在开发用于结构化数据的数据质量平台。今天，该公司宣布…

王浩然
2024年11月25日
000
AI前沿

微软的 TorchGeo 如何为机器学习专家简化地理空间数据

在当今数据驱动的世界中，地理空间信息对于洞察气候变化、城市发展、灾害管理和全球安全至关重要。尽管地理空间数据潜力巨大，但由于其规模、复杂性和缺乏标准化，处理地理空间数据面临着重大挑…

点点
2024年10月5日
000
AI前沿

中国芯片堆叠策略能否挑战英伟达 AI 霸权？—— 技术突破、现实挑战与行业影响

面对美国日益严苛的半导体出口管制，中国半导体产业正以 “芯片堆叠” 为创新突破口，试图通过整合成熟制程芯片，弥补在先进工艺上的短板，进而挑战英伟达在 AI 芯片市场的主导地位。这一…

王浩然
2025年12月7日
000