
当企业们争先恐后地将大语言模型和自主智能Agent接入核心业务流程时,一场看不见的安全暗战早已打响。在这场战役中,Virtue AI创始人兼CEO、伊利诺伊大学厄巴纳-香槟分校教授Bo Li,正带着她横跨学术与产业的双重经验,为企业构建AI时代的安全护城河。
### 从象牙塔到创业场:填补AI安全的落地鸿沟
Bo Li的职业生涯始终围绕着AI安全展开。作为学术界的领军研究者,她的团队长期深耕机器学习安全、可信AI与对抗鲁棒性领域,产出了包括NSA与NeurIPS最佳论文《DecodingTrust》在内的一系列重磅成果。但在与企业的接触中,她发现了一个残酷的现实:实验室里的先进研究,与企业能实际部署的安全工具之间,存在着巨大的断层。
“传统安全工具是为路径固定、行为可预测的应用设计的,”Bo Li在访谈中指出,“但AI系统具备推理、自适应和自主行动能力,这完全超出了传统安全框架的覆盖范围。”正是看到了基础研究与产业应用之间的这道鸿沟,她与联合创始人共同创立了Virtue AI,致力于将前沿的AI安全研究转化为企业可直接使用的规模化解决方案。
### 被低估的Agent风险:企业AI安全的新盲区
在企业对AI安全的认知中,模型安全已经得到了表面上的重视,但自主智能Agent带来的风险却普遍被低估。这些Agent被赋予了访问企业最敏感基础设施的权限:执行代码、调用API、浏览网页,甚至做出涉及数据、财务和运营的连锁决策。
“大多数安全团队的工具和思维模式,都无法应对这类系统,”Bo Li强调,“风险绝非理论层面的。没有专门针对Agent系统的安全防护,小故障会迅速演变成大灾难。一个意外的工具调用、一条模糊的指令、一个绕过防护的提示词,都可能在无人察觉的情况下升级为未授权操作或数据泄露。”
与传统软件甚至聊天机器人不同,自主Agent不是静态程序,它们不遵循可预测的路径,也不会局限于部署时设定的边界。传统安全依赖的固定执行路径、稳定API和确定性行为等假设,在Agent面前全部失效。要保护这类系统,必须将Agent作为一个完整的系统来看待——包括它的推理过程、工具使用、运行环境以及下游影响。
### 持续红队测试:AI安全的动态防护之道
在Virtue AI的安全框架中,持续红队测试是核心支柱之一。Bo Li解释说,预部署测试与生产环境中的系统测试有着本质区别:“在受控环境中,你测试的是模型和Agent本身;但在生产环境中,你测试的是整个系统——当模型连接到工具、检索管道、用户输入和其他Agent时,其行为空间会以预部署测试无法覆盖的方式扩展。”
这种“行为空间爆炸”意味着,许多严重的安全问题只有在系统真正上线后才会暴露。一个“配置安全”的Agent,在连接到真实数据库、新服务器或其他Agent时,可能会表现出完全不同的行为。因此,AI安全不能依赖一次性的防护措施,而需要持续的红队测试、风险发现和自适应防护,与AI系统共同进化。
### 重新定义AI安全度量:从静态基准到系统级评估
如何衡量AI系统的安全性?Bo Li给出了与传统软件安全截然不同的答案:“AI安全无法通过单一的静态基准来衡量,因为现代AI系统会通过微调、检索增强和工具/Agent交互不断进化。”
她认为,安全评估应该作为AI应用全生命周期的系统级属性来进行,包括:用多样化的红队攻击对模型和Agent进行压力测试;实时监控提示词、工具调用和行为;根据定义的风险策略评估结果(如滥用、幻觉、隐私泄露或未授权操作)。Virtue AI开发的DecodingTrust-Agent平台,构建了一个逼真的Agent模拟器,托管多样化环境并内置红队Agent,能够进行动态、自适应的持续红队测试。
### 实时防护:超越事后监控的主动安全
在应对Agent带来的跨系统风险时,传统安全工具的短板暴露无遗。大多数工具只能提供单个API调用的可见性,却无法追踪Agent通过五次工具调用产生意外结果的完整推理过程。这种可见性缺口,导致企业无法有效治理和审计Agent的行为。
与单纯的监控或日志记录相比,实时防护能从根本上改变风险格局。“日志只能在损害发生后告诉你哪里出了问题,它对取证和合规有用,但无法阻止任何事情,”Bo Li解释道,“而实时防护会在执行前拦截操作,如果Agent试图做出违反策略的行为,它会在运行前被阻止或标记,而不是在事后。”
Virtue AI的解决方案将实时防护与跨所有Agent-工具交互的统一执行点相结合,形成了比被动监控单个组件更强大的风险控制能力。
### 研究驱动的产品哲学:让AI安全始终领先一步
作为由资深技术研究者创立的公司,Virtue AI的产品决策逻辑与商业驱动的AI初创公司截然不同。“AI安全和治理本质上是一个深度技术问题,”Bo Li强调,“我们要保护的系统——如大语言模型、多模态模型和Agent系统——本身就是基于先进研究构建的。没有深厚的AI基础专业知识,几乎不可能设计出有效的安全解决方案。”
在Virtue AI,研究团队和工程团队同步解决问题:研究人员持续探索新兴模型架构、新的Agent工作流和不断演变的攻击技术,工程师则将这些洞见直接集成到生产系统中。当发现新的漏洞时——比如一种新型的提示词注入模式或Agent操纵策略——能够迅速转化为新的检测模型、防护措施或红队测试策略,而无需等待季度产品路线图。
### 负责任的AI部署:安全与效率并非对立
在Bo Li看来,负责任的AI部署绝非纸上谈兵,而是要在实际生产中实现“安全与速度的统一”。“企业普遍认为严格的安全措施会拖慢创新速度,但事实恰恰相反,”她指出,“那些能够自信部署Agent的企业,都是将安全内置到流程中,而不是在最后才匆匆补上。”
具体而言,负责任的AI部署意味着:在部署前进行自动化红队测试;在Agent上线后实施实时控制;在整个Agent生命周期中保持集中可见性。这不是单纯的合规演练,而是真正让企业能够快速前进的保障——因为企业不会在生产环境中才发现那些本该提前解决的问题。
“负责任的部署,具体来说就是你知道你的Agent能做什么,能看到它们正在做什么,并且在出现问题时能够阻止它们,”Bo Li总结道,“负责任的AI开发能够让企业充满信心地持续规模化部署AI系统,而不是放慢AI创新的步伐。”
当AI技术的边界不断扩展,企业的安全防护也必须随之进化。在这场由技术驱动的安全竞赛中,像Virtue AI这样扎根于前沿研究、兼具产业落地能力的团队,正在为企业构建起AI时代的安全新范式。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/cong-shi-yan-shi-dao-qi-ye-fang-xian-virtue-ai-chuang-shi