
当我们谈论AI工具时,最先想到的往往是它们带来的效率革命:简化登录流程、自动总结文档、批量处理重复性工作,让职场和生活中的繁琐事务变得轻松。这些工具确实兑现了提升生产力的承诺,成为了不少人日常工作中的得力助手。但在这份便捷的背后,一场关乎系统安全的新挑战正在悄然酝酿。
如今的AI早已不满足于在文本框内完成任务,它们开始深入操作系统内部,具备了浏览文件、起草邮件、调用应用程序的能力,能够执行曾经只有人类才能完成的复杂操作。这一转变,让AI所处的位置彻底跳出了传统安全模型的预设范围,也让长期以来的AI安全共识逐渐失效。
当AI获得系统级权限的那一刻,它就成为了可信计算基础的一部分,这也意味着prompt注入(提示词注入)的危害不再局限于对话内容。过去,prompt注入最多只会让聊天机器人产生误导性回复,而现在,隐藏在PDF、网页或邮件中的恶意指令,能直接触发AI在设备上执行实际操作。
这并非危言耸听。卡内基梅隆大学和华盛顿大学的研究人员已经多次证实,隐藏指令可以引导大语言模型执行用户从未授权的操作;计算机视觉模型的相关研究也显示,经过篡改的图像能影响模型认知,进而改变其后续行为。这些曾经只存在于实验室的研究成果,在AI拥有系统访问权限的当下,已经具备了现实的攻击价值。
即便是开发这些AI代理的企业,也公开承认这一挑战的严峻性。尽管它们不断强化提示词过滤机制,但控制AI在现实世界中的行为,依然是整个行业尚未解决的难题。AI代理的能力增速与防御手段之间的差距,催生了现有安全手册无法覆盖的新型风险。
要理解这种风险,我们可以从攻击者熟悉的攻击链视角来分析。MITRE ATT&CK框架清晰地勾勒出了攻击的典型阶段:初始访问、执行、持久化、发现、横向移动、收集和数据泄露。如今,攻击的交付机制正在发生变化:攻击者不再需要诱骗用户打开恶意附件或点击危险链接,只需将指令放置在AI代理会读取的位置,AI就会成为执行环境,不折不扣地按照指令完成每一个步骤,不会对指令的危害性产生质疑。
这让安全团队陷入了前所未有的困境。长期以来,他们围绕代码执行构建了检测规则、管控措施和响应流程,但AI代理的执行语言是自然语言,而非编译后的二进制文件,现有工具根本无法追踪或分析AI的决策过程。
传统安全模型默认在内容和操作之间存在人类的判断环节:人类可能会被欺骗,但面对异常情况时会产生怀疑,会对行为的合理性进行判断。但AI代理完全不同,它们只会一致、字面地执行指令,速度甚至比攻击者还快。一条隐藏在正常内容中的文本,就足以指令AI读取敏感文件、在应用间移动数据或联系远程服务器。
更棘手的是,安全团队很难了解AI是如何做出决策的,也无法轻易判断某一操作是来自用户还是AI的自主行为。传统的恶意软件检测工具对此毫无帮助,因为从常规意义上来说,并没有恶意代码在执行,而且AI完全可能不会质疑或拒绝隐藏在正常内容中的有害指令。为人类行为设计的安全工具,在自然语言成为系统操作脚本的时代,已经完全失效。
仅仅强化模型本身的安全性是远远不够的,安全团队需要围绕AI代理构建管控措施,限制其在推理过程被影响时的行为范围。目前,几种策略已经展现出了可行性:
首先是最小权限原则,AI代理只能访问完成任务所需的文件和操作权限,减少不必要的权限可以限制恶意指令的影响范围;其次是人工审批环节,当AI尝试执行敏感操作(如运行命令或访问受保护数据)时,需要用户进行审批;内容过滤也是重要的缓冲手段,对文档、URL和外部文本进行筛查,能降低隐藏指令接触到AI模型的概率;此外,全面的日志记录必不可少,AI代理发起的每一项操作都应被记录和审查,如同对待特权用户的操作一样;最后,将AI代理的行为映射到ATT&CK技术中,能帮助防御者识别AI可能被用于有害操作的环节,从而有针对性地设置防护措施。
这些补偿性控制措施无法完全消除风险,但能在模型层面防御的基础上,进一步限制风险的扩散。
AI代理代表了计算方式的重大转变,它们在带来巨大生产力提升的同时,也引入了现有安全框架无法覆盖的操作风险。英国国家网络安全中心发布的指南只是一个开始,大多数组织仍缺乏管理具备系统操作能力的AI代理的清晰路径。
当下的场景,与云计算普及初期极为相似:技术的发展速度远超管控手段的建设速度。那些能够快速适应的组织,往往是最早意识到转变并建立相应流程的先行者。
AI代理不再仅仅是助手,而是拥有系统级权限的操作者。保护它们需要新的操作手册、新的防护机制和新的风险建模方式。行业无需恐惧这些工具,但必须真正理解它们,并迅速行动起来——因为攻击者已经看到了其中的机会,而防御者需要在还有时间的情况下,构建起完善的安全屏障。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/ai-neng-li-zeng-su-yuan-chao-an-quan-guan-kong-dang-zhi