
在人工智能(AI)领域,Salesforce正致力于解决一个长期困扰商业应用的问题:即AI系统的原始智能与其在不可预测的企业环境中持续稳定执行任务的能力之间的差距,Salesforce将此问题称为“锯齿状智能”。在近期的一次综合研究宣布中,Salesforce AI Research揭示了多项新的基准、模型和框架,旨在使未来的AI代理在企业应用中变得更加智能、可信和多功能。
企业通用智能:专为商业复杂性设计
Salesforce的首席科学家兼AI研究负责人西尔维奥·萨瓦雷塞在新闻发布会上表示:“虽然大型语言模型(LLMs)在标准化测试、规划复杂行程和生成精美诗歌方面表现出色,但它们在需要可靠和一致的任务执行时,面对动态且不可预测的企业环境时,往往会显得力不从心。”Salesforce的这一举措代表了其向“企业通用智能”(EGI)的迈进,这是一种专为商业复杂性设计的AI,而不仅仅是追求更理论化的人工通用智能(AGI)。
量化与解决AI性能不一致性
研究的核心之一是量化和解决AI性能的不一致性。Salesforce推出了SIMPLE数据集,这是一个包含225个简单推理问题的公共基准,旨在衡量AI系统能力的真实“锯齿状”程度。研究经理谢尔比·海内克在发布会上解释:“今天的AI是锯齿状的,所以我们需要解决这个问题。但要解决问题,首先得进行测量,这正是SIMPLE基准的作用。”
对于企业应用而言,这种不一致性不仅仅是一个学术问题。AI代理的一个小小失误就可能扰乱运营、损害客户信任或造成巨大的经济损失。萨瓦雷塞强调:“对于企业而言,AI不是一项随意的消遣,而是一个要求绝对可预测性的关键工具。”
CRMArena:模拟真实CRM场景的基准框架
也许最重大的创新是CRMArena,一个旨在模拟真实客户关系管理场景的新型基准框架。它允许在专业环境中对AI代理进行全面测试,填补了学术基准与现实世界业务需求之间的鸿沟。CRMArena从服务代理、分析师和管理员三个关键角色评估代理性能。初步测试显示,即使在有指导提示的情况下,领先代理在这些角色的用例中成功执行功能的比例也不到65%。
技术创新:从深层语境理解到行动预测
Salesforce还公布了一系列技术创新。其中包括SFR-Embedding,一种用于更深层语境理解的新模型,该模型在56个数据集上领先于大规模文本嵌入基准(MTEB)。专为开发人员设计的SFR-Embedding-Code版本则实现了高质量的代码搜索,简化了开发工作。此外,Salesforce还推出了xLAM V2(大型行动模型)系列,这些模型专为预测行动而非仅生成文本而设计,最小的模型仅包含10亿个参数,远小于许多领先的语言模型。
强化信任与安全性:SFR-Guard与ContextualJudgeBench
为了应对企业对AI安全性和可靠性的担忧,Salesforce引入了SFR-Guard模型系列,这些模型经过公开数据和CRM专业内部数据的训练,增强了公司的信任层,为AI代理行为提供了明确的边界。同时,Salesforce还推出了ContextualJudgeBench,一个用于评估基于LLM的法官模型在语境中表现的新型基准,测试了超过2000对具有挑战性的响应对的准确性、简洁性、忠实度和适当的拒绝回答能力。
超越文本:TACO多模态行动模型
Salesforce还展示了TACO,一个旨在通过思维与行动链(CoTA)解决复杂多步骤问题的多模态行动模型系列。这种方法使AI能够解释和响应涉及多种媒体类型的复杂查询,Salesforce声称在具有挑战性的MMVet基准上实现了高达20%的改进。
客户共创与未来展望
AI研究孵化与品牌战略高级总监伊泰·阿西奥强调了客户共创在开发企业就绪AI解决方案中的重要性。他提到,当与客户交流时,一个主要痛点是处理企业数据时,对不准确和不相关答案的容忍度非常低。通过与客户紧密合作,Salesforce在推理引擎、检索增强生成技术等方面取得了显著进展,显著提高了AI性能。
Salesforce的这项研究正值企业AI采用的关键时刻,随着企业越来越寻求结合高级功能与可靠性能的AI系统,Salesforce对一致性差距的关注凸显了一种更加细致入微的AI开发方法,该方法优先考虑现实世界的企业需求而非学术基准。这些技术将在未来几个月内逐步推出,首先是将SFR-Embedding引入Data Cloud,而其他创新将支持Agentforce的未来版本。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/salesforce-tui-chu-xin-ai-ji-zhun-he-mo-xing-jie-jue-ju-chi