
当ChatGPT掀起的生成式AI浪潮席卷全球后,企业对AI的期待早已从实验室里的技术演示,转向了业务流程中稳定运行的核心系统。但随之而来的,是AI系统故障带来的真实代价——从医疗场景中患者处方处理中断,到客户服务系统宕机引发的品牌信任危机,AI可靠性正在从“锦上添花”的技术指标,变成决定企业生死的核心能力。
近日,Unite.AI对TrueFoundry联合创始人兼CEO Nikunj Bajaj进行了专访,这位曾在Meta负责大规模推荐系统的技术专家,如今正带领团队打造新一代企业AI基础设施平台。在他看来,当前企业AI部署的最大痛点,在于大多数组织仍在用“并行栈”的思路处理AI工作负载,这与科技巨头的“垂直栈”模式形成了鲜明对比。
“在Meta,我们将机器学习视为软件的一种特殊形式,生成式AI又是机器学习的特殊形式,这种垂直整合的架构让系统扩展变得简单直接。”Bajaj解释道,“但大多数企业却在为软件、机器学习和生成式AI分别搭建独立的技术栈,这导致不同系统间的协作变得异常复杂,扩展能力也大打折扣。”
正是看到了这种行业痛点,Bajaj在2021年底创立了TrueFoundry。当时他预判,AI即将迎来规模化落地的拐点,企业需要一套能够覆盖模型构建、部署、治理和扩展全生命周期的垂直整合平台。而ChatGPT在2022年底的爆火,恰好验证了他的判断——企业对AI的需求井喷式增长,但可靠性问题却成为了落地的最大障碍。
### 生成式AI时代,可靠性的内涵已彻底改变
与传统机器学习系统相比,生成式AI的可靠性挑战呈现出完全不同的特征。Bajaj指出,生成式AI的随机性本质,以及基于大语言模型构建的智能代理系统,让故障模式从“非黑即白”的二元判断,变成了更隐蔽的“灰度地带”。
“传统系统的故障通常是明确的——要么运行,要么停机。但生成式AI系统的故障可能表现为响应延迟增加、输出质量下降,或者在特定场景下产生错误输出。”他说,“这些隐性的性能退化往往比直接停机更危险,因为它们难以被及时发现,却会在不知不觉中影响业务结果和客户体验。”
这种变化要求企业重新定义AI可靠性的衡量标准。不再仅仅关注系统是否“在线”,而是要建立一套覆盖性能、质量和安全性的综合评估体系。这也解释了为什么TrueFoundry会推出TrueFailover这样的自动化故障切换解决方案——在AI系统故障可能直接影响患者生命安全或企业营收的场景中,手动恢复流程显然已经无法满足需求。
### AI故障的真实代价:从技术问题到业务危机
Bajaj分享了一个令人警醒的案例:TrueFoundry的一家医疗客户在处理实时处方请求时遭遇模型故障,而这些工作流每秒能带来数千美元的收入。借助TrueFailover的自动切换能力,团队迅速恢复了服务,将损失降到了最低。但这个案例也引发了更深层次的思考:为什么在AI系统 stakes 越来越高的今天,恢复流程还主要依赖人工操作?
“我们需要从设计阶段就假设故障一定会发生,并让系统具备自我修复的能力。”Bajaj强调,“可靠性必须被内置到AI技术栈中,通过AI网关实现集中路由、可观测性、安全护栏和跨供应商的智能模型切换。”
随着AI系统从后台工具转向面向客户的核心服务,故障的影响范围也在不断扩大。Bajaj认为,如今AI系统宕机不再只是技术部门的“小故障”,而是会直接影响企业的品牌声誉和财务表现。在医疗、金融等关键领域,AI系统的中断甚至可能引发合规风险和法律责任。
“在药房这样的关键场景中,AI系统宕机几乎会立刻引发运营危机。”他说,“患者可能无法及时获得处方,这不仅会影响治疗效果,还会严重损害医疗机构的信任度。”
### 重建AI架构:从“避免故障”到“假设故障”
面对这些挑战,企业需要彻底重构AI系统的设计思路。Bajaj认为,很多团队在设计AI系统时过于关注功能实现,而忽视了连续性保障,这本质上是组织内部激励机制的问题——新功能的推出更容易获得管理层的认可,而稳定性工作却往往被视为“看不见的功劳”。
“当企业越来越依赖外部模型和API时,新的脆弱性也在不断引入。”Bajaj提醒道,“大语言模型本质上是共享资源,企业无法像控制传统基础设施那样控制它们。模型提供商的迭代、其他用户的使用高峰,都可能导致性能波动,而这些都是企业无法直接控制的变量。”
在这种情况下,Bajaj建议企业回归分布式系统设计的基本原则:假设故障一定会发生,并通过冗余设计来提升系统韧性。“我们应该像设计传统分布式系统那样设计AI系统,假设模型提供商可能会出现延迟、性能下降或完全宕机的情况,并提前做好预案。”
他预测,随着AI系统在企业中的普及,可靠性将成为选择供应商的“入门门槛”。就像当年云基础设施的竞争一样,当所有供应商都能提供基本的可靠性保障后,竞争将转向用户体验、性能优化和可观测性等更高维度的能力。
### 未来的“生产就绪”AI:可观测、可控制、可恢复
那么,真正“生产就绪”的AI系统应该具备哪些特征?在Bajaj看来,必须同时满足三个核心要求:可观测、可控制和可恢复。
首先是可观测性,团队需要能够深入了解模型的行为、延迟、错误率、令牌使用情况、数据漂移和故障模式。“没有强大的可观测性,就无法在用户发现问题之前检测到性能退化。”他说。
其次是可控制性,这包括流量管理、速率限制、安全护栏、策略执行以及跨模型和供应商的智能路由。AI网关在这方面扮演着核心角色,它作为集中控制平面,能够在性能或可靠性下降时自动切换模型。
最后是可恢复性,系统必须内置自动故障切换和自我修复机制,而不是依赖事后的人工干预。“我们需要从设计阶段就考虑到各种故障场景,并确保系统能够在不需要人工干预的情况下自动恢复。”
随着AI技术的不断演进,“生产就绪”的标准也在不断提高。在Bajaj看来,未来的AI系统不仅要能够偶尔提供帮助,更要能够像电力系统一样持续可靠地运行。而那些能够将可观测性、集中控制和自动恢复能力整合到平台中的供应商,将最终赢得企业的长期信任。
对于正在推进AI规模化落地的企业来说,这场关于可靠性的觉醒,不仅是技术架构的重构,更是组织思维方式的转变。从“追求完美”到“拥抱故障”,企业需要建立一套全新的AI治理体系,才能在生成式AI时代真正释放技术的价值。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/cong-shi-yan-shi-dao-sheng-chan-xian-qi-ye-ai-ke-kao-xing