
给孩子买一辆崭新的自行车,吸引所有人目光的总会是自行车本身,而非配套的闪亮头盔。但父母们深知头盔的重要性。如今,我们很多人对待人工智能的态度,恐怕和这孩子没什么两样。我们沉迷于它的酷炫功能,急于体验它带来的高效便捷,却鲜少思考如何在使用过程中保障安全。这实在令人惋惜,因为 AI 的益处与安全保障本就密不可分,缺一不可。简单来说,在应用人工智能时若不事先周密规划安全问题,不仅充满风险,更是一条通往灾难的绝路。
那么,AI 安全究竟意味着什么?AI 安全涉及一系列措施,但最关键的或许是采取这些措施的时机。要让安全真正发挥作用,就必须将其融入设计之初。这意味着我们在让 AI 投入测试之前,就要先想好如何防范潜在危害;在 AI 开始运行并生成结果之前,就确保它的运作模式和产出符合我们的价值观与社会期望,而非等到出现糟糕的结果后才亡羊补牢。为 AI 安全进行设计,还包括让 AI 具备稳健性,即便在不利情况下也能保持可预测的性能;让 AI 保持透明,使其做出的决策可理解、可审计且无偏见。同时,我们还必须审视 AI 将要运作的环境:需要建立哪些制度和法律保障,才能确保遵守适用的政府法规?此外,人的因素同样不容忽视,我再怎么强调都不为过:使用 AI 会对与之交互的人们产生怎样的影响?安全设计意味着,在我们输入第一个提示词之前,就将 AI 安全嵌入所有流程、工作流和运营环节之中。
然而,并非所有人都认同这一观点。当听到 “安全优先” 时,有些人会理解为 “行事过于谨慎迟缓,最终被时代淘汰”。但事实绝非如此。安全优先并不意味着扼杀创新或延缓产品上市时间,也不代表一系列永无规模化可能的试点项目。恰恰相反,它要求我们清醒认识到不为 AI 设计安全保障所潜藏的巨大风险。仅举几例便可说明:德勤金融服务中心预测,到 2027 年,生成式 AI 可能导致美国的欺诈损失从 2023 年的 123 亿美元飙升至 400 亿美元,年复合增长率高达 32%;存在因 AI 基于有偏见的数据训练而导致医疗服务不公的案例;更严重的是,有研究表明,AI 引发的初始错误决策不仅本身会造成危害,还可能影响我们的思维方式,进而导致未来更多错误决策的产生。这些风险都伴随着真实的后果:提供错误医疗建议的 AI 已造成患者死亡的悲剧;将 AI 的幻觉内容作为法律先例引用引发了法律纠纷;AI 助手提供错误信息导致的软件漏洞,不仅损害了公司产品和声誉,还引发了广泛的用户不满。而随着能够自主根据决策采取行动的智能体 AI 的出现和快速普及,为 AI 设计安全保障的重要性将进一步凸显。能够代表你行事的 AI 智能体可能极具实用价值:它不再只是告诉你旅行的最佳航班,还能直接帮你查找并预订;如果你想退换产品,公司的 AI 智能体不仅能告知你退换政策和流程,还能全程代办交易。这固然很棒,但前提是 AI 智能体不会虚构航班信息、不会不当处理你的财务数据,也不会搞错公司的退换政策而拒绝合理的退换申请。不难想象,当前的 AI 安全风险在众多 AI 智能体自主决策、协同运作的场景下,很容易引发连锁反应 —— 尤其是这些智能体往往不会单独行动,智能体 AI 的真正价值很大程度上来自于多个智能体协同工作,各自负责任务的不同部分,通过智能体之间的协作完成工作。那么,如何才能在不阻碍创新、不扼杀 AI 潜在价值的前提下,将安全设计融入 AI 应用呢?
临时的安全检查并非解决之道,真正有效的方法是将安全实践整合到 AI 实施的每个阶段。首先从数据入手,确保数据经过正确标记、必要时进行注释、无偏见且质量可靠,训练数据尤其如此。在模型训练过程中融入人类反馈,因为人类判断对于塑造模型行为至关重要。基于人类反馈的强化学习(RLHF)及其他类似技术,允许标注人员对模型响应进行评分和引导,帮助大语言模型生成安全且符合人类价值观的输出。在模型发布前,要对其进行压力测试:组建红队,通过对抗性提示、边缘案例测试和尝试 “越狱” 等方式激发 AI 的不安全行为,从而暴露潜在漏洞,并在模型面向公众前完成修复,防患于未然。这种测试能确保 AI 模型的稳健性,同时在模型投入使用后,仍需持续监控,关注新兴威胁并根据需要调整模型。同样,要定期监控内容来源和数字交互,排查欺诈迹象。关键是采用人机混合模式,让 AI 自动化处理海量监控数据,而由专业人员负责审核执行,确保准确性。应用智能体 AI 则需要更加谨慎:最基本的要求是训练智能体了解自身局限性,当遇到不确定性、伦理困境、新情况或高风险决策时,确保它知道如何寻求帮助。同时,要为智能体设计可追溯性,这一点尤为重要,能确保智能体仅与经过验证的用户进行交互,防止欺诈者影响智能体的行为。即便智能体看似运行良好,也不应放任其自主运作。根据我们的经验,需要持续监控智能体及其执行的任务,及时发现错误或意外行为,同时采用自动化检查和人工审核相结合的方式。事实上,AI 安全的一个核心要素是人类的定期参与:在决策或行动涉及关键判断、同理心、细微差别或模糊性时,必须有意识地让人类参与其中。需要再次明确的是,所有这些实践都应提前融入 AI 实施过程,是设计阶段就已确定的环节,而非在出现问题后才仓促采取的损害控制措施。
这种安全优先的理念真的有效吗?从生成式 AI 兴起至今,在向智能体 AI 快速迈进的过程中,我们一直与客户携手践行 “AI 安全优先” 的理念和 “设计内置安全” 的框架。实践证明,与人们担心的 “拖慢进度” 恰恰相反,这种理念实际上加速了 AI 的落地进程。例如,智能体 AI 有望将客户支持成本降低 25% 至 50%,同时提高客户满意度,但这一切都建立在信任的基础上。使用 AI 的人类必须信任它,与 AI 辅助的人类代理或 AI 智能体交互的客户,任何一次负面体验都可能破坏这种信任。一次糟糕的互动就足以摧毁消费者对一个品牌的信心。我们不会信任不安全的事物,因此,当我们在即将推出的 AI 的每一层都融入安全设计时,就能满怀信心地推进;当准备规模化推广时,也能自信且迅速地行动。虽然践行 “AI 安全优先” 可能看似艰巨,但你并非孤军奋战。有许多专家可以提供帮助,也有合作伙伴愿意分享他们已有的经验和正在探索的成果,让你能够安全地挖掘 AI 价值,而不会被安全问题拖慢脚步。到目前为止,AI 的发展历程令人振奋,而随着发展速度不断加快,我对此更是充满期待。但同时,我也庆幸自己始终 “佩戴着安全头盔” 前行。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/ai-you-xian-ji-an-quan-you-xian