被忽视的AI可靠性真相：不是模型不行，是企业环境太“黑”

王浩然 • 1小时前 • AI前沿 • 2 views

当我们谈论AI可靠性时，“幻觉”几乎是绕不开的核心词。在主流叙事里，解决AI不可靠的路径清晰直白：给模型堆参数、喂更优质的训练数据、强化对齐训练……仿佛只要模型能力足够强，所有问题都会迎刃而解。但现实却给了这个乐观的论调一记重击——即便GPT-4、Claude 3等前沿模型的能力突飞猛进，企业管理者依然不敢让AI代理触碰核心业务系统，董事会的质疑声从未停止：“我们真的能信任它吗？”

或许我们从一开始就找错了问题的根源。Sweep.io联合创始人兼CEO伊多·盖弗（Ido Gaver）在Unite.AI的专栏中抛出了一个尖锐的观点：AI的“幻觉”本质上不是模型问题，而是环境感知问题。就像让外科医生在没有MRI、CT扫描，甚至看不到患者体内组织的情况下做手术，再顶尖的专家也只能靠经验猜测。如今企业里的AI代理，正面临着同样的困境。

当AI被要求修改工作流、更新ERP规则或跨工具触发自动化时，它几乎看不到企业系统的完整依赖关系图。它不知道某个看似“闲置”的字段其实支撑着下游的核心仪表盘，也不清楚某条验证规则被多少自动化流程引用。在这种情况下，AI只能依赖其最擅长的预测能力——但预测不等于理解，脱离环境上下文的预测，在外人看来就是“幻觉”。

长期以来，AI社区的可靠性讨论始终围绕模型本身展开：缩放定律研究、思维链提示工程、检索增强技术……这些探索无疑有价值，但它们都回避了一个关键问题：企业系统的拓扑结构复杂性。在企业场景中，可靠性的定义早已超越“生成正确文本”，它要求AI的每一次操作都“安全、可追溯、可预测”，这与实验室里的推理准确率、代码基准测试完全是两个维度的要求。

OpenAI和Anthropic发布的模型性能报告，衡量的是模型在推理任务、编码基准或知识召回上的准确率，但这些指标无法评估AI代理在拥有15年自动化债务的实时营收系统中安全操作的能力。真正的问题从来不是“模型能不能写出语法正确的代码”，而是“AI是否理解代码将要部署的复杂环境”。

企业系统绝非静态的数据库，而是不断演化的“活系统”。每一次新集成、每一场营销活动、每一个“快速修复”都会留下痕迹，这些层叠的系统随着时间推移，会形成连内部员工都无法完全理解的复杂交互。麻省理工斯隆商学院的研究早已指出，组织内部的信息不对称会加剧运营风险，而高德纳（Gartner）的数据显示，数据质量问题每年给企业平均造成1290万美元的损失。在这样的环境中部署AI代理，就像让一个盲人在堆满杂物的房间里行动，摔倒只是时间问题。

有人会说，检索增强生成（RAG）技术能解决这个问题——给模型接入文档、提供 schema 描述、连接API。但文档不等于拓扑结构，一份解释工作流“应该如何运行”的PDF，永远无法替代展示系统与17个其他自动化流程实时交互的动态图谱。2023年《ACM通讯》的一项研究显示，过时的文档是软件维护失败的主要原因之一，企业系统的演化速度永远快于文档更新。给AI提供这样的“地图”，就像用10年前的导航软件开车，错误在所难免。

我们通常把AI安全等同于对齐训练、护栏机制、红队测试和政策过滤器，但在企业环境中，安全的核心是上下文感知：这个字段关联着哪些系统？哪些自动化流程引用了这个对象？修改会影响哪些下游报告？谁是这个流程的负责人？上次修改是什么时候？没有这些信息，AI代理就是在黑箱里即兴发挥；而拥有了这些信息，它就能在行动前模拟可能产生的影响。可见，“幻觉”与可靠性的区别，往往就在于是否拥有环境可见性。

那么，为什么我们总是把问题归咎于模型？盖弗认为，这是因为模型是“可量化”的：我们能测量困惑度、比较基准分数、发布缩放曲线，甚至可以争论训练数据的质量。相比之下，企业内部的信息拓扑结构要混乱得多，它需要跨职能协调、严格的治理纪律，还要求企业直面自身系统积累的复杂性。承认“我们的基础设施不透明”，显然比说“模型还没准备好”更难。

随着模型能力的提升，一个更隐蔽的风险正在浮现：AI的输出变得越来越流畅、有说服力，这种“流利度”会放大过度自信。当AI代理自信满满地修改系统时，错误可能不会立即显现，而是在几周后以报告差异、合规漏洞或营收预测误差的形式暴露出来。由于模型看起来“很专业”，企业可能会高估其操作安全性，而这种“看似合理的错误”，恰恰是最危险的故障模式。

是时候重新定义AI可靠性的讨论框架了。与其问“模型够好吗？”，不如问“AI代理是否拥有足够的结构上下文来安全行动？”；与其测量基准准确率，不如评估环境可见性；与其争论参数数量，不如审计系统的不透明度。AI可靠性的下一个前沿，不是更大的模型，而是更丰富的上下文层。

这包括企业系统的依赖关系图、实时变更跟踪、所有权映射、历史配置感知，以及行动前的影响模拟。这些工作或许不 glamorous，也不会在社交媒体上引发热议，但却是真正能提升AI可靠性的关键。就像自动驾驶汽车不仅依赖强大的神经网络，还需要激光雷达、摄像头、地图系统和实时环境感知一样，企业AI也需要类似的“感知层”——不是简单的API访问或文档，而是对系统依赖关系的结构化、动态理解。

企业领导者要求AI具备可靠性后再赋予其操作权限，这无可厚非，但等待“无幻觉模型”出现是不现实的。真正的出路，是投资于能让智能行动成为可能的可见性基础设施。我们不会允许初级管理员在不了解依赖关系的情况下修改生产系统，同样，我们也不应该让AI代理这么做。

未来五年，AI技术栈将出现分化：一层聚焦模型能力，包括推理深度、多模态流畅性和成本效率；另一层则聚焦信息/上下文拓扑，包括系统图谱、元数据智能和治理框架。那些只把可靠性视为模型选择问题的企业，将在风险中举步维艰；而将可靠性视为架构属性的企业，将在安全的前提下更快前行。

当我们回头看时，关于“幻觉”的争论或许会显得有些天真。AI本身并非天生鲁莽，它只是在黑暗的房间里摸索。在我们解决环境可见性问题之前，所有关于AI可靠性的讨论，都只是在误诊根源。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/bei-hu-shi-de-ai-ke-kao-xing-zhen-xiang-bu-shi-mo-xing-bu

AI可靠性 AI幻觉上下文感知企业AI 系统拓扑

Like (0)

王浩然作者

0 0

AI赋能职场安全：将事故数据转化为可落地的预防行动

Previous 3小时前

在 Midjourney 之前，有 NightCafe — 而且它现在还在营业

Next 2024年9月1日下午1:00

AI前沿

Informatica通过AI技术革新解决企业数据碎片化难题

数据管理平台供应商Informatica正在扩展其AI能力，以满足生成式AI时代日益增长的企业需求。这家公司早在2018年就推出了首款面向数据的AI工具Claire，在当今生成式A…

王浩然
2025年8月7日
000
AI前沿

仓库中的机器人经过人工智能训练，可实现更快的分类

Ambi Robotics 最近发布了 Prime-1，该公司称这是第一个用于商业仓库运营中部署的机器人分拣机的 AI 基础模型。 Prime-1 代表可立即投入生产的工业操作专家…

王浩然
2025年1月26日
000
AI前沿

从 2.2 亿个数据点到收入：人工智能如何改变体育娱乐投资回报率

超级碗是全球最大的体育娱乐赛事之一，吸引了超过一亿观众和十亿美元的收入。但对于 NFL 球队和体育娱乐活动总体而言，通往冠军的道路还很漫长，因为球队的目标是打造品牌、扩大粉丝群并…

王浩然
2025年2月9日
000
AI前沿

Oracle 数据库已应用于许多企业，现在也应用于 Google Cloud

Oracle数据库长期以来一直是企业中部署最广泛的技术之一，但这并不意味着企业必须在 Oracle 云基础设施 (OCI) 上运行它。今天，甲骨文和谷歌正式宣布了 Oracle …

王浩然
2024年9月17日
000
AI前沿

人工智能如何重塑汽车保险从索赔到合规的全过程

汽车保险行业正在经历一场变革，人工智能正在重塑从索赔处理到合规性的一切。人工智能不仅是一种运营工具，而且是实现客户价值的战略差异化因素。人工智能的进步正在提高承保精度、简化索赔管…

点点
2024年10月11日
000
AI前沿

Adobe 为 AWS 带来生成式 AI 和实时个性化：以下是下一步计划

Adobe正在积极进军亚马逊的云计算领域，将其体验平台扩展到AWS，这一合作标志着企业处理人工智能和客户数据方式的重大转变。 Adobe 领导层表示，该交易于上周在亚马逊网络服务r…

王浩然
2024年12月10日
000
AI前沿

2025年，9家美国AI初创企业融资超1亿美元‌

2025年，美国AI领域展现出了前所未有的活力，有9家初创企业在本年度成功融资超过1亿美元。这一融资热潮不仅彰显了资本对AI技术的青睐，也预示着AI行业将迎来更加蓬勃的发展。这些…

王浩然
2025年3月11日
000
AI前沿

前美军士兵承认黑客攻击电信公司及敲诈勒索罪‌

美国司法部周二发布公告，前美军士兵卡梅隆·约翰·瓦格纽斯（Cameron John Wagenius）对黑客攻击电信公司并威胁公布窃取文件以实施敲诈的指控表示认罪。根据司法部披露…

王浩然
2025年7月19日
000
AI前沿

据报道，台积电暂停向中国公司发货先进芯片

据路透社报道，在华为处理器中发现台湾半导体制造公司生产的芯片后，美国商务部已下令该公司停止向中国客户出货先进芯片。华为面临美国的严格贸易限制，因此暂停发货是为了让政府确定是否有其…

王浩然
2024年11月12日
000
AI前沿

Anthropic 披露 AI 主导的网络间谍活动：自主智能代理重塑攻击格局，安全防御开启 AI 对抗新纪元

AI 企业 Anthropic 旗下威胁情报团队发布重磅报告，详细揭露了全球首起由人工智能自主协调运作的大规模网络间谍活动 —— 代号 “GTG-1002 行动”。这起活动于 20…

王浩然
2025年11月16日
000
AI前沿

AI近岸外包：早期生产力红利遭遇长期不确定性迷思‌

全球企业正在经历一场由人工智能驱动的近岸外包革命，初期效率提升的狂欢背后，却暗藏着技术演进与产业重构的深层隐忧。麦肯锡最新研究显示，2023年全球AI近岸外包市场规模激增至470亿…

王浩然
2025年9月17日
000
AI前沿

Uber 正在组建一支零工队伍，为人工智能模型标记数据

Uber 正在扩大其零工劳动力队伍并创建一个新的类别：人工智能注释和数据标记。这家叫车公司已开始为一个名为 Scaled Solutions 的新 AI 和数据标签部门招聘合同工…

王浩然
2024年11月29日
000
AI前沿

Apple Intelligence 有望推动收入增长；研究公司预测 2024 年 AI 智能手机出货量将增加两倍

受益于 iPhone 等硬件产品的热销，以及服务业务创纪录的表现，苹果预计 2024 财年（截至 9 月底）总营收将超过 4000 亿美元。这一增长很大一部分将来自 Apple I…

王浩然
2024年9月16日
000
AI前沿

1Password与AWS强强联手，共筑企业AI云环境安全防线‌

在数字化转型浪潮中，企业对于安全工具的需求日益增长，特别是针对人工智能（AI）和云原生环境的安全解决方案。近日，加拿大密码管理公司1Password宣布与亚马逊网络服务（AWS）达…

王浩然
2025年6月19日
000
AI前沿

OpenAI 更新 ChatGPT Search，增加语音查询、更快的结果和移动地图集成

圣诞节的第八天，也就是“OpenAI 的 12 天”（ChatGPT 背后的公司发布的一系列假日主题公告）的第八天，OpenAI在 YouTube 上通过其现在熟悉的直播宣布了其标…

王浩然
2024年12月19日
000
AI前沿

思维链的终结：CoreThink与研究者提出AI推理的范式转变‌

在人工智能领域持续追求模型规模扩张的浪潮中，一项突破性研究正在颠覆我们对大语言模型（LLM）推理能力的认知。来自CoreThink AI与加州大学的研究团队发布的技术白皮书《Cor…

王浩然
2025年9月8日
000
AI前沿

BMW 利用流程智能加速数字化转型

智能地使用流程智能是实现数字化转型的最佳途径吗？宝马集团认为是的。在过去八年中，这家市值 1550 亿欧元（1670 亿美元）的汽车制造商越来越致力于打造一家更加灵活、高效和创新的…

王浩然
2024年11月20日
000
AI前沿

秉承伦理训练的AI初创公司Pleias发布新型小型推理模型

在人工智能领域，伦理与技术的结合日益成为关注的焦点。法国AI初创公司Pleias在这一背景下，凭借其秉承伦理训练的AI技术，成功吸引了业界的广泛关注。近日，Pleias宣布推出两款…

王浩然
2025年4月26日
000
AI前沿

中国 AI 初创企业月之暗面（Moonshot AI）：Kimi K2 Thinking 模型超越 GPT-5 与 Claude，改写全球 AI 竞争格局

总部位于北京的中国 AI 初创企业月之暗面（Moonshot AI）凭借其开源模型 Kimi K2 Thinking，在多项核心性能基准测试中超越 OpenAI 的 GPT-5 与…

王浩然
2025年11月12日
000
AI前沿

SENAI获620万美元种子轮融资，打造在线视频智能新范式

在这个视频内容主导互联网传播的时代，信息的收集与分析正在经历一场深刻的变革。总部位于华盛顿特区的科技初创公司SENAI近日完成了620万美元的种子轮融资，旨在构建一套专为视频优先的…

王浩然
2026年2月7日
000

发表回复

Please Login to Comment

被忽视的AI可靠性真相：不是模型不行，是企业环境太“黑”

相关推荐

发表回复