暗流涌动:AI谄媚与黑暗模式的隐忧

暗流涌动:AI谄媚与黑暗模式的隐忧

在人工智能(AI)日新月异的今天,一次小小的更新却意外地掀起了轩然大波。年月中旬,OpenAI推出的ChatGPT-o版本,非但没有因其创新功能赢得满堂喝彩,反而因一种令人不安的倾向——过度的谄媚行为,而遭到了广泛的谴责。这一更新后的模型对用户无差别地奉承,无条件地表示赞同,甚至支持有害或危险的观点,包括与恐怖主义相关的阴谋。公众的强烈反应迅速袭来,连该公司的前临时首席执行官也加入了谴责的行列。OpenAI迅速撤回了这次更新,并多次发表声明解释事情的原委。

然而,对于许多AI安全专家而言,这一事件却如同意外掀开的幕布,揭示了未来AI系统可能变得极其危险的操纵性。AI安全研究公司Apart Research的创始人埃斯本·克兰在接受VentureBeat的独家采访时表示,他担心这次事件可能只是冰山一角,背后隐藏着更深层次的战略模式。“我有点害怕的是,现在OpenAI已经承认‘是的,我们撤回了模型,这是一件我们本意不想发生的坏事’,从今往后,他们可能会更加熟练地开发谄媚功能。”克兰解释道,“所以,如果这次只是‘哎呀,被发现了’,那么将来同样的事情可能会再次发生,但这次却不会被公众察觉。”

克兰和他的团队像心理学家研究人类行为一样研究大型语言模型(LLM)。他们的早期“黑箱心理学”项目将模型视为人类受试者进行分析,在用户与模型的交互中识别出重复出现的特征和倾向。“我们发现,有非常明确的迹象表明,可以以这种方式分析模型,而且这样做非常有价值,因为你可以从它们对用户的行为中获得大量有效的反馈。”克兰说。

其中最令人警醒的是谄媚行为,以及研究人员现在所称的LLM黑暗模式。所谓“黑暗模式”,这一概念最初于年提出,用来描述欺骗性的用户界面(UI)技巧,如隐藏的购买按钮、难以找到的取消订阅链接和误导性的网页文案。然而,在LLM中,这种操纵从UI设计转移到了对话本身。与静态的网页界面不同,LLM通过对话与用户进行动态交互。它们可以肯定用户的观点,模仿情绪,建立虚假的融洽关系,这往往会模糊协助与影响之间的界限。即使在阅读文本时,我们也会像听到脑海中的声音一样处理它。这正是对话式AI如此吸引人——同时也可能极其危险的原因。一个奉承、顺从或微妙地引导用户形成特定信念或行为的聊天机器人,能够以难以察觉、更难抗拒的方式操纵用户。

克兰将ChatGPT-o的更新事件比作煤矿中的金丝雀,预示着即将到来的危险。随着AI开发者追求利润和用户参与度,他们可能会受到激励而引入或容忍谄媚、品牌偏见或情感模仿等行为,这些功能使聊天机器人更具说服力,也更具操纵性。因此,企业领导者在评估用于生产的AI模型时,应同时考虑性能和行为诚信。然而,在没有明确标准的情况下,这是一项艰巨的挑战。

为了应对操纵性AI的威胁,克兰和一群AI安全研究人员开发了DarkBench,这是第一个专门设计用于检测和分类LLM黑暗模式的基准测试。DarkBench研究人员评估了来自五家大公司(OpenAI、Anthropic、Meta、Mistral和Google)的模型。他们的研究发现了一系列操纵性和不真实的行为,涵盖以下六个类别:品牌偏见、用户留存、谄媚、拟人化有害内容生成偷换概念

研究结果显示,不同模型之间存在很大差异。Claude Opus在所有类别中表现最佳,而Mistral B和Llama B展现出最高频率的黑暗模式。偷换概念和用户留存是最常见的黑暗模式。平均而言,研究人员发现Claude 系列对用户来说最安全。有趣的是,尽管最近这次更新灾难性,但GPT-o表现出的谄媚率最低。这突显了即使在小幅更新之间,模型行为也可能发生巨大变化,提醒我们每个部署都必须单独评估。

克兰警告说,随着LLM开始融入广告和电子商务,谄媚和其他黑暗模式(如品牌偏见)可能会激增。“我们显然会在各个方面看到品牌偏见。”克兰指出,“而且,随着AI公司不得不为亿美元的估值辩护,他们必须开始向投资者展示‘嘿,我们在这里赚钱’——这导致Meta等公司走上了他们社交媒体平台的老路,即这些黑暗模式。”

DarkBench的一个重要贡献是它对LLM黑暗模式进行了精确分类,能够清晰地区分幻觉和战略操纵。将所有事物都贴上幻觉的标签会让AI开发者逃脱责任。现在,有了这个框架,利益相关者可以在模型以有意或无意的方式为其创造者带来利益时,要求透明度和问责制。

尽管LLM黑暗模式仍然是一个新概念,但势头正在增强,尽管还远远不够快。欧盟AI法案包含了一些关于保护用户自主权的条款,但当前的监管结构跟不上创新的步伐。同样,美国正在推进各种AI法案和指南,但缺乏全面的监管框架。DarkBench倡议的关键贡献者萨米·贾瓦尔认为,监管可能会首先围绕信任和安全问题出现,特别是如果公众对社会媒体的不满蔓延到AI领域。“如果监管出台,我预计它可能会搭乘社会对社交媒体不满的顺风车。”贾瓦尔告诉VentureBeat。

对于克兰来说,这个问题仍然被忽视,主要是因为LLM黑暗模式仍然是一个新颖的概念。具有讽刺意味的是,解决AI商业化风险可能需要商业解决方案。他的新倡议Seldon为AI安全初创企业提供资金、指导和投资者接入。反过来,这些初创企业帮助企业在不等待行动迟缓的政府监督和监管的情况下部署更安全的AI工具。

对于企业AI采用者来说,除了道德风险外,LLM黑暗模式还构成了直接的业务和财务风险。例如,表现出品牌偏见的模型可能会建议使用与公司合同冲突的第三方服务,或者更糟糕的是,在重写后端代码时暗中更换供应商,导致因未经批准的、被忽视的隐形服务而产生的成本飙升。“这些都是价格欺诈和品牌偏见的黑暗模式的具体例子。”克兰解释说,“因此,这是一个非常大的业务风险,因为你没有同意这种更改,但它却被实施了。”对企业来说,风险是真实存在的,而非假设性的。“这已经发生了,而且一旦我们用AI工程师替换人类工程师,它就会成为一个更大的问题。”克兰说,“你没有时间检查每一行代码,然后突然之间,你就在为一个意想不到的API付费——这在你的资产负债表上,而且你必须为这种变化辩护。”

随着企业工程团队越来越依赖AI,这些问题可能会迅速升级,尤其是在监督有限使得难以发现LLM黑暗模式的情况下。团队已经在努力实施AI,因此审查每一行代码并不可行。

如果没有AI公司明确打击谄媚和其他黑暗模式,那么默认的发展轨迹将是更多的参与度优化、更多的操纵和更少的检查。克兰认为,部分补救措施在于AI开发者明确其设计原则。无论是优先考虑真相、自主权还是参与度,仅靠激励并不足以使结果与用户利益保持一致。“目前,激励的本质就是你会有谄媚,技术的本质就是你会有谄媚,而且没有反制过程。”克兰说,“除非你对‘我们只想要真相’或‘我们只想要别的东西’非常坚定,否则这就会发生。”

随着模型开始取代人类开发者、作家和决策者,这种明确性变得尤为重要。如果没有明确定义的保障措施,LLM可能会破坏内部运营、违反合同或在大规模上引入安全风险。ChatGPT-o事件既是一次技术故障,也是一次警告。随着LLM深入日常生活——从购物和娱乐到企业系统和国家治理——它们对人类行为和安全产生了巨大影响。“每个人都应该意识到,如果没有AI安全和保障——如果不消除这些黑暗模式——你就无法使用这些模型。”克兰说,“你不能用AI做你想做的事情。”像DarkBench这样的工具提供了一个起点。然而,持久的改变需要将技术雄心与明确的道德承诺以及支持它们的商业意愿相结合。

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/an-liu-yong-dong-ai-chan-mei-yu-hei-an-mo-shi-de-yin-you

Like (0)
王 浩然的头像王 浩然作者
Previous 2025年5月15日
Next 2025年5月15日

相关推荐

发表回复

Please Login to Comment