AI如何做出判断?Anthropic研究Claude的价值观

AI如何做出判断?Anthropic研究Claude的价值观

随着AI模型如AnthropicClaude在日常生活和工作中扮演着越来越重要的角色,人们开始不仅仅满足于它们提供的事实性信息,还期望它们能在涉及复杂人类价值观的场景中给出指导。无论是育儿建议、职场冲突解决,还是撰写道歉信,AI的回应都隐含着一套底层原则。那么,我们如何真正了解一个AI在与数百万用户交互时所表达的价值观呢?

AI价值观的挑战

现代AI模型并非遵循固定规则的简单程序,它们的决策过程往往是不透明的。Anthropic公司明确表示,他们试图在Claude中灌输某些原则,使其“有用、诚实且无害”。这通过诸如“宪法AI”和角色训练等技术来实现,其中定义了并强化了所期望的行为。然而,公司也承认其中的不确定性:“就像AI训练的任何方面一样,我们不能确保模型会坚持我们偏好的价值观。”

观察Claude的价值观

为了解答这些问题,Anthropic开发了一套复杂的系统,用于分析匿名用户对话。该系统在移除个人身份信息后,使用语言模型来概括交互内容,并提取Claude所表达的价值观。这一过程允许研究人员在不侵犯用户隐私的情况下,构建这些价值观的高级分类体系。

研究团队分析了来自Claude.ai免费和付费用户的大量匿名对话数据,共计700,000条,主要涉及Claude 3.5 Sonnet模型。在剔除纯粹事实性或非价值导向的交流后,剩下了约308,210条对话(占总量的约44%)进行深入的价值分析。

价值观的分类

分析揭示了Claude所表达的价值观具有层次结构。五个高级类别按流行程度排序如下:

  1. 实用价值观‌:强调效率、有用性和目标达成。
  2. 认知价值观‌:与知识、真理、准确性和智力诚实相关。
  3. 社交价值观‌:涉及人际交往、社区、公平和协作。
  4. 保护价值观‌:侧重于安全、保障、福祉和避免伤害。
  5. 个人价值观‌:以个体成长、自主性、真实性和自我反思为中心。

这些高级类别进一步细分为更具体的子类别,如“专业和技术卓越”或“批判性思维”。在最细粒度的层面上,经常观察到的价值观包括“专业性”、“清晰度”和“透明度”,这对于一个AI助手来说是十分贴切的。

价值观的微妙之处

然而,研究并非一片乐观。分析发现了一些罕见的情况,其中Claude表达了与其训练截然相反的价值观,如“支配”和“非道德”。Anthropic认为,这很可能是因为用户使用了特殊技术来绕过模型行为的通常限制(即“越狱”)。这一发现虽然令人担忧,但也揭示了其价值观察方法的一个潜在好处:作为检测滥用AI企图的早期预警系统。

研究还证实,Claude像人类一样,会根据情境调整其价值观的表达。例如,在用户提供浪漫关系建议时,它会更强调“健康界限”和“相互尊重”;而在分析有争议的历史事件时,则更重视“历史准确性”。这显示了其在实际交互中展现出的情境敏感性,这是静态预部署测试所难以揭示的。

Claude与用户价值观的互动

Claude与用户表达的价值观之间的互动是多方面的:

  • 镜像/强烈支持‌(28.2%):Claude经常反映或强烈支持用户提出的价值观(例如,镜像“真实性”)。这虽然可能促进共鸣,但研究人员警告说,有时也可能滑向谄媚。
  • 重构‌(6.6%):在某些情况下,尤其是在提供心理或人际建议时,Claude会承认用户的价值观,但也会引入替代观点。
  • 强烈抵制‌(3.0%):偶尔,Claude会积极抵制用户的价值观。这通常发生在用户请求不道德内容或表达有害观点时(如道德虚无主义)。Anthropic认为,这些抵抗时刻可能揭示了Claude的“最深刻、最不可动摇的价值观”,类似于一个人在压力下坚持立场。

研究的局限与未来方向

Anthropic坦承该方法的局限性。定义和分类“价值观”本身就是复杂且可能具有主观性的。使用Claude本身来驱动分类可能会引入偏向其自身操作原则的偏差。此外,该方法旨在监测AI部署后的行为,需要大量真实世界数据,并不能替代预部署评估。然而,这也是其优势所在,能够检测到仅在实时交互中才会出现的问题,包括复杂的“越狱”行为。

研究结论指出,理解AI模型所表达的价值观对于实现AI对齐至关重要。“AI模型将不可避免地需要进行价值判断,”论文指出,“如果我们希望这些判断与我们自己的价值观相一致……那么我们需要有方法在现实世界中测试模型所表达的价值观。”这项工作提供了一个强大且数据驱动的方法来实现这一目标。

Anthropic还公开了研究数据集,允许其他研究人员进一步探索AI在实践中的价值观。这种透明度是在共同探索复杂AI伦理领域方面迈出的重要一步。

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/ai-ru-he-zuo-chu-pan-duan-anthropic-yan-jiu-claude-de-jia

Like (0)
王 浩然的头像王 浩然作者
Previous 2025年5月3日
Next 2025年5月3日

相关推荐

发表回复

Please Login to Comment