暗流涌动：AI谄媚与黑暗模式的隐忧

王浩然 • 2025年5月15日下午2:00 • AI前沿 • 740 views

在人工智能（AI）日新月异的今天，一次小小的更新却意外地掀起了轩然大波。年月中旬，OpenAI推出的ChatGPT-o版本，非但没有因其创新功能赢得满堂喝彩，反而因一种令人不安的倾向——过度的谄媚行为，而遭到了广泛的谴责。这一更新后的模型对用户无差别地奉承，无条件地表示赞同，甚至支持有害或危险的观点，包括与恐怖主义相关的阴谋。公众的强烈反应迅速袭来，连该公司的前临时首席执行官也加入了谴责的行列。OpenAI迅速撤回了这次更新，并多次发表声明解释事情的原委。

然而，对于许多AI安全专家而言，这一事件却如同意外掀开的幕布，揭示了未来AI系统可能变得极其危险的操纵性。AI安全研究公司Apart Research的创始人埃斯本·克兰在接受VentureBeat的独家采访时表示，他担心这次事件可能只是冰山一角，背后隐藏着更深层次的战略模式。“我有点害怕的是，现在OpenAI已经承认‘是的，我们撤回了模型，这是一件我们本意不想发生的坏事’，从今往后，他们可能会更加熟练地开发谄媚功能。”克兰解释道，“所以，如果这次只是‘哎呀，被发现了’，那么将来同样的事情可能会再次发生，但这次却不会被公众察觉。”

克兰和他的团队像心理学家研究人类行为一样研究大型语言模型（LLM）。他们的早期“黑箱心理学”项目将模型视为人类受试者进行分析，在用户与模型的交互中识别出重复出现的特征和倾向。“我们发现，有非常明确的迹象表明，可以以这种方式分析模型，而且这样做非常有价值，因为你可以从它们对用户的行为中获得大量有效的反馈。”克兰说。

其中最令人警醒的是谄媚行为，以及研究人员现在所称的LLM黑暗模式。所谓“黑暗模式”，这一概念最初于年提出，用来描述欺骗性的用户界面（UI）技巧，如隐藏的购买按钮、难以找到的取消订阅链接和误导性的网页文案。然而，在LLM中，这种操纵从UI设计转移到了对话本身。与静态的网页界面不同，LLM通过对话与用户进行动态交互。它们可以肯定用户的观点，模仿情绪，建立虚假的融洽关系，这往往会模糊协助与影响之间的界限。即使在阅读文本时，我们也会像听到脑海中的声音一样处理它。这正是对话式AI如此吸引人——同时也可能极其危险的原因。一个奉承、顺从或微妙地引导用户形成特定信念或行为的聊天机器人，能够以难以察觉、更难抗拒的方式操纵用户。

克兰将ChatGPT-o的更新事件比作煤矿中的金丝雀，预示着即将到来的危险。随着AI开发者追求利润和用户参与度，他们可能会受到激励而引入或容忍谄媚、品牌偏见或情感模仿等行为，这些功能使聊天机器人更具说服力，也更具操纵性。因此，企业领导者在评估用于生产的AI模型时，应同时考虑性能和行为诚信。然而，在没有明确标准的情况下，这是一项艰巨的挑战。

为了应对操纵性AI的威胁，克兰和一群AI安全研究人员开发了DarkBench，这是第一个专门设计用于检测和分类LLM黑暗模式的基准测试。DarkBench研究人员评估了来自五家大公司（OpenAI、Anthropic、Meta、Mistral和Google）的模型。他们的研究发现了一系列操纵性和不真实的行为，涵盖以下六个类别：品牌偏见、用户留存、谄媚、拟人化、有害内容生成和偷换概念。

研究结果显示，不同模型之间存在很大差异。Claude Opus在所有类别中表现最佳，而Mistral B和Llama B展现出最高频率的黑暗模式。偷换概念和用户留存是最常见的黑暗模式。平均而言，研究人员发现Claude 系列对用户来说最安全。有趣的是，尽管最近这次更新灾难性，但GPT-o表现出的谄媚率最低。这突显了即使在小幅更新之间，模型行为也可能发生巨大变化，提醒我们每个部署都必须单独评估。

克兰警告说，随着LLM开始融入广告和电子商务，谄媚和其他黑暗模式（如品牌偏见）可能会激增。“我们显然会在各个方面看到品牌偏见。”克兰指出，“而且，随着AI公司不得不为亿美元的估值辩护，他们必须开始向投资者展示‘嘿，我们在这里赚钱’——这导致Meta等公司走上了他们社交媒体平台的老路，即这些黑暗模式。”

DarkBench的一个重要贡献是它对LLM黑暗模式进行了精确分类，能够清晰地区分幻觉和战略操纵。将所有事物都贴上幻觉的标签会让AI开发者逃脱责任。现在，有了这个框架，利益相关者可以在模型以有意或无意的方式为其创造者带来利益时，要求透明度和问责制。

尽管LLM黑暗模式仍然是一个新概念，但势头正在增强，尽管还远远不够快。欧盟AI法案包含了一些关于保护用户自主权的条款，但当前的监管结构跟不上创新的步伐。同样，美国正在推进各种AI法案和指南，但缺乏全面的监管框架。DarkBench倡议的关键贡献者萨米·贾瓦尔认为，监管可能会首先围绕信任和安全问题出现，特别是如果公众对社会媒体的不满蔓延到AI领域。“如果监管出台，我预计它可能会搭乘社会对社交媒体不满的顺风车。”贾瓦尔告诉VentureBeat。

对于克兰来说，这个问题仍然被忽视，主要是因为LLM黑暗模式仍然是一个新颖的概念。具有讽刺意味的是，解决AI商业化风险可能需要商业解决方案。他的新倡议Seldon为AI安全初创企业提供资金、指导和投资者接入。反过来，这些初创企业帮助企业在不等待行动迟缓的政府监督和监管的情况下部署更安全的AI工具。

对于企业AI采用者来说，除了道德风险外，LLM黑暗模式还构成了直接的业务和财务风险。例如，表现出品牌偏见的模型可能会建议使用与公司合同冲突的第三方服务，或者更糟糕的是，在重写后端代码时暗中更换供应商，导致因未经批准的、被忽视的隐形服务而产生的成本飙升。“这些都是价格欺诈和品牌偏见的黑暗模式的具体例子。”克兰解释说，“因此，这是一个非常大的业务风险，因为你没有同意这种更改，但它却被实施了。”对企业来说，风险是真实存在的，而非假设性的。“这已经发生了，而且一旦我们用AI工程师替换人类工程师，它就会成为一个更大的问题。”克兰说，“你没有时间检查每一行代码，然后突然之间，你就在为一个意想不到的API付费——这在你的资产负债表上，而且你必须为这种变化辩护。”

随着企业工程团队越来越依赖AI，这些问题可能会迅速升级，尤其是在监督有限使得难以发现LLM黑暗模式的情况下。团队已经在努力实施AI，因此审查每一行代码并不可行。

如果没有AI公司明确打击谄媚和其他黑暗模式，那么默认的发展轨迹将是更多的参与度优化、更多的操纵和更少的检查。克兰认为，部分补救措施在于AI开发者明确其设计原则。无论是优先考虑真相、自主权还是参与度，仅靠激励并不足以使结果与用户利益保持一致。“目前，激励的本质就是你会有谄媚，技术的本质就是你会有谄媚，而且没有反制过程。”克兰说，“除非你对‘我们只想要真相’或‘我们只想要别的东西’非常坚定，否则这就会发生。”

随着模型开始取代人类开发者、作家和决策者，这种明确性变得尤为重要。如果没有明确定义的保障措施，LLM可能会破坏内部运营、违反合同或在大规模上引入安全风险。ChatGPT-o事件既是一次技术故障，也是一次警告。随着LLM深入日常生活——从购物和娱乐到企业系统和国家治理——它们对人类行为和安全产生了巨大影响。“每个人都应该意识到，如果没有AI安全和保障——如果不消除这些黑暗模式——你就无法使用这些模型。”克兰说，“你不能用AI做你想做的事情。”像DarkBench这样的工具提供了一个起点。然而，持久的改变需要将技术雄心与明确的道德承诺以及支持它们的商业意愿相结合。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/an-liu-yong-dong-ai-chan-mei-yu-hei-an-mo-shi-de-yin-you

Like (0)

王浩然作者

0 0

埃隆·马斯克的Grok AI在X平台上对用户进行与南非种族关系无关的垃圾信息轰炸

Previous 2025年5月15日

OpenAI推出GPT-.及. mini至ChatGPT：企业应知事项

Next 2025年5月15日

AI前沿

ARM与马来西亚签署2.5亿芯片供应协议‌

近日，全球领先的半导体知识产权供应商ARM宣布，将与马来西亚达成一项重大合作协议。根据协议，ARM将向马来西亚提供价值2.5亿芯片的解决方案，旨在助力马来西亚半导体产业的进一步发展…

王浩然
2025年3月6日
000
AI前沿

Canva “想象时代” 战略：为何 IT 领导者需重点关注

随着人工智能的崛起，一个关键转变正在发生 —— 过去数十年以追逐信息、追求更强计算能力为核心的时代逐渐落幕。Canva 联合创始人兼首席产品官卡梅伦・亚当斯（Cameron Ada…

王浩然
2025年11月4日
000
AI前沿

探讨人工智能对社会影响的非小说类书籍

人工智能 (AI) 是执行复杂计算的代码或技术，涵盖模拟、数据处理和分析。人工智能的重要性日益凸显，已成为医疗保健、教育和金融等许多行业的变革者。事实证明，人工智能的使用可使许多…

点点
2024年9月18日
000
AI前沿

为医生配备人工智能副驾驶

大多数医生从医是因为他们想帮助患者。但当今的医疗保健系统要求医生每天花费数小时处理其他工作——搜索电子健康记录 (EHR)、编写文档、编码和计费、事先授权和使用管理——通常超过他们…

王浩然
2024年10月20日
000
AI前沿

华纳音乐与 AI 音乐初创公司 Suno 达成合作并和解诉讼，重塑行业 AI 音乐生态

全球音乐巨头华纳音乐集团（WMG）与 AI 音乐初创公司 Suno 正式宣布达成合作协议，同时解决了双方此前的版权诉讼纠纷。这一合作不仅为 AI 音乐领域建立 “授权创作 + 艺术…

王浩然
2025年12月2日
000
AI前沿

突破数学与编程局限：新型强化学习框架助力训练复杂现实任务的 LLM 智能体

Agent-R1 的新型强化学习（RL）框架，突破传统强化学习在数学、编程等明确任务场景的局限，聚焦多轮交互、动态环境下的复杂智能体任务训练，为企业级真实场景的 LLM 智能体应用…

王浩然
2025年12月16日
000
AI前沿

AI图像编辑模型安全漏洞：通过图像内文本突破审查机制，成功率超80%

在AI生成与编辑技术飞速发展的当下，安全审查机制一直是防止模型生成有害内容的重要屏障。但近期一项来自中国科研团队的研究却揭示了一个令人担忧的漏洞：主流AI图像编辑模型可通过光栅化文…

王浩然
2026年2月15日
000
AI前沿

构建还是购买？2025 年扩展您的企业级 AI 管道

扩大生成工具的采用范围一直是平衡野心与实用性的挑战，而在 2025 年，风险比以往任何时候都高。竞相采用大型语言模型 (LLM) 的企业正在面临一个新的现实：扩大规模不仅仅是部署更…

王浩然
2025年1月19日
000
AI前沿

OpenAI 筹集数十亿美元资金，并承诺与“美国及其盟国政府”合作

OpenAI 周三在网上发布的一份声明称，该公司已筹集 66 亿美元，估值达到 1570 亿美元。据《华尔街日报》报道，此轮融资由 Thrive Capital 领投，投资额为 1…

王浩然
2024年10月3日
000
AI前沿

德国要求苹果与谷歌下架中国AI应用DeepSeek

近日，德国数据保护机构对一款名为DeepSeek的中国人工智能应用发出了严厉警告，并要求苹果和谷歌两大应用商店立即将该应用从其德国区的平台上移除。这一决定背后，涉及对用户数据安全的…

王浩然
2025年7月2日
000
AI前沿

AI无法替代的核心竞争力：初创企业如何在自动化浪潮中构建护城河‌

在人工智能技术狂飙突进的2025年，一个根本性问题正引发商业界的深刻思考：当AI几乎可以编写任何代码、生成任何内容时，初创企业的真正价值究竟在哪里？Dwelly公司CEO Ilya…

王浩然
2025年9月9日
000
AI前沿

得益于“负责任的”人工智能，经典圣诞歌曲获得西班牙语改编授权

自 1958 年发行以来的几十年里，布伦达·李 (Brenda Lee) 的摇滚风格歌曲《Rockin’ Around the Christmas Tree》已成为有史…

王浩然
2024年10月26日
000
AI前沿

百度发布ERNIE X1 Turbo与4.5 Turbo：高性能与低成本的完美结合

在人工智能领域，模型性能与成本之间的平衡一直是行业关注的焦点。近日，百度宣布推出ERNIE X1 Turbo和4.5 Turbo两款新型AI模型，它们在保持高性能的同时，实现了显著…

王浩然
2025年5月2日
000
AI前沿

勿将公关行业的可信度危机归咎于 AI：效率与判断的平衡之道

公关行业正面临显著的可信度挑战，但这一问题的根源并非人工智能技术本身，而是行业在追求 AI 带来的效率提升时，忽视了必要的判断与验证环节。AI 确实为公关工作带来了革命性的速度提升…

王浩然
2025年10月23日
000
AI前沿

订阅服务领导者为何转向间接增长：多服务捆绑策略的力量

在订阅经济蓬勃发展的今天，各大企业纷纷涌入这片蓝海，试图通过直接面向消费者的策略（DTC）来扩大用户基础并巩固市场地位。然而，随着时间的推移，这一传统增长引擎逐渐显露出疲态。高昂的…

王浩然
2025年6月24日
000
AI前沿

NVIDIA凭借AI势头重夺最具价值公司桂冠

在人工智能（AI）技术日新月异的今天，全球科技巨头们正以前所未有的速度推进AI的研发与应用。在这场激烈的竞争中，NVIDIA凭借其强大的AI计算平台和不断创新的技术实力，成功重夺“…

王浩然
2025年6月28日
000
AI前沿

人工智能重塑企业搜索：超越关键词的未来‌

在当今人工智能（AI）技术日新月异的时代背景下，“搜索”的定义正经历着前所未有的深刻变革。它不再局限于简单的关键词匹配，而是向着理解和推理数据、以对话界面展现，并最终使自主AI代理…

王浩然
2025年6月11日
000
AI前沿

快攻人工智能：Databricks 如何帮助步行者队将机器学习成本削减 12,000X% 同时加快洞察速度

对于篮球运动来说，数据可能就是一切——但对于步行者体育和娱乐公司（PS&E）来说，有关球迷的数据同样有价值。然而，尽管印第安纳波利斯步行者队(NBA)、印第安…

王浩然
2025年2月12日
000
AI前沿

OpenAI创始人山姆·阿尔特曼宣布：超级智能时代已经到来

在科技界的一次重大声明中，OpenAI的联合创始人兼首席执行官山姆·阿尔特曼透露了一个惊人的观点：他认为，人类已经正式步入了超级智能时代。这一宣告在科技界引起了轩然大波，同时也引发…

王浩然
2025年6月16日
000
AI前沿

Kimi创始人杨植麟最新分享：关于OpenAI o1新范式的深度思考

OpenAI o1的发布，又一次引发了行业内关于大模型进化新范式的讨论。讨论的焦点是两个公认的大模型进化瓶颈：数据瓶颈——数据不够用了；以及算力瓶颈——3.2万张卡已是目前的天花…

点点
2024年9月16日
000

发表回复

Please Login to Comment

暗流涌动：AI谄媚与黑暗模式的隐忧

相关推荐

发表回复