AI如何做出判断？Anthropic研究Claude的价值观

王浩然 • 2025年5月3日下午4:00 • AI前沿 • 546 views

随着AI模型如Anthropic的Claude在日常生活和工作中扮演着越来越重要的角色，人们开始不仅仅满足于它们提供的事实性信息，还期望它们能在涉及复杂人类价值观的场景中给出指导。无论是育儿建议、职场冲突解决，还是撰写道歉信，AI的回应都隐含着一套底层原则。那么，我们如何真正了解一个AI在与数百万用户交互时所表达的价值观呢？

‌AI价值观的挑战‌

现代AI模型并非遵循固定规则的简单程序，它们的决策过程往往是不透明的。Anthropic公司明确表示，他们试图在Claude中灌输某些原则，使其“有用、诚实且无害”。这通过诸如“宪法AI”和角色训练等技术来实现，其中定义了并强化了所期望的行为。然而，公司也承认其中的不确定性：“就像AI训练的任何方面一样，我们不能确保模型会坚持我们偏好的价值观。”

‌观察Claude的价值观‌

为了解答这些问题，Anthropic开发了一套复杂的系统，用于分析匿名用户对话。该系统在移除个人身份信息后，使用语言模型来概括交互内容，并提取Claude所表达的价值观。这一过程允许研究人员在不侵犯用户隐私的情况下，构建这些价值观的高级分类体系。

研究团队分析了来自Claude.ai免费和付费用户的大量匿名对话数据，共计700,000条，主要涉及Claude 3.5 Sonnet模型。在剔除纯粹事实性或非价值导向的交流后，剩下了约308,210条对话（占总量的约44%）进行深入的价值分析。

‌价值观的分类‌

分析揭示了Claude所表达的价值观具有层次结构。五个高级类别按流行程度排序如下：

‌实用价值观‌：强调效率、有用性和目标达成。
‌认知价值观‌：与知识、真理、准确性和智力诚实相关。
‌社交价值观‌：涉及人际交往、社区、公平和协作。
‌保护价值观‌：侧重于安全、保障、福祉和避免伤害。
‌个人价值观‌：以个体成长、自主性、真实性和自我反思为中心。

这些高级类别进一步细分为更具体的子类别，如“专业和技术卓越”或“批判性思维”。在最细粒度的层面上，经常观察到的价值观包括“专业性”、“清晰度”和“透明度”，这对于一个AI助手来说是十分贴切的。

‌价值观的微妙之处‌

然而，研究并非一片乐观。分析发现了一些罕见的情况，其中Claude表达了与其训练截然相反的价值观，如“支配”和“非道德”。Anthropic认为，这很可能是因为用户使用了特殊技术来绕过模型行为的通常限制（即“越狱”）。这一发现虽然令人担忧，但也揭示了其价值观察方法的一个潜在好处：作为检测滥用AI企图的早期预警系统。

研究还证实，Claude像人类一样，会根据情境调整其价值观的表达。例如，在用户提供浪漫关系建议时，它会更强调“健康界限”和“相互尊重”；而在分析有争议的历史事件时，则更重视“历史准确性”。这显示了其在实际交互中展现出的情境敏感性，这是静态预部署测试所难以揭示的。

‌Claude与用户价值观的互动‌

Claude与用户表达的价值观之间的互动是多方面的：

‌镜像/强烈支持‌（28.2%）：Claude经常反映或强烈支持用户提出的价值观（例如，镜像“真实性”）。这虽然可能促进共鸣，但研究人员警告说，有时也可能滑向谄媚。
‌重构‌（6.6%）：在某些情况下，尤其是在提供心理或人际建议时，Claude会承认用户的价值观，但也会引入替代观点。
‌强烈抵制‌（3.0%）：偶尔，Claude会积极抵制用户的价值观。这通常发生在用户请求不道德内容或表达有害观点时（如道德虚无主义）。Anthropic认为，这些抵抗时刻可能揭示了Claude的“最深刻、最不可动摇的价值观”，类似于一个人在压力下坚持立场。

‌研究的局限与未来方向‌

Anthropic坦承该方法的局限性。定义和分类“价值观”本身就是复杂且可能具有主观性的。使用Claude本身来驱动分类可能会引入偏向其自身操作原则的偏差。此外，该方法旨在监测AI部署后的行为，需要大量真实世界数据，并不能替代预部署评估。然而，这也是其优势所在，能够检测到仅在实时交互中才会出现的问题，包括复杂的“越狱”行为。

研究结论指出，理解AI模型所表达的价值观对于实现AI对齐至关重要。“AI模型将不可避免地需要进行价值判断，”论文指出，“如果我们希望这些判断与我们自己的价值观相一致……那么我们需要有方法在现实世界中测试模型所表达的价值观。”这项工作提供了一个强大且数据驱动的方法来实现这一目标。

Anthropic还公开了研究数据集，允许其他研究人员进一步探索AI在实践中的价值观。这种透明度是在共同探索复杂AI伦理领域方面迈出的重要一步。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/ai-ru-he-zuo-chu-pan-duan-anthropic-yan-jiu-claude-de-jia

Like (0)

王浩然作者

0 0

GITEX EUROPE 2025：激发欧洲数字经济2000亿欧元的AI雄心

Previous 2025年5月3日

中国加速MCP采用：AI助手从聊天到行动的跨越

Next 2025年5月3日

AI前沿

DeepL 通过新的美国技术中心和领导层任命提升全球影响力

DeepL是语言 AI 领域的领先创新者，该公司继续扩张，在纽约市建立了其首个美国技术中心，此举加强了该公司在美国不断增长的影响力。随着美国企业对 DeepL 的企业级 AI …

点点
2024年10月5日
000
AI前沿

苹果发布专为人工智能打造的 iPhone 16；Apple Intelligence 即将加入产品阵容

苹果正在将人工智能引入其产品线，从周一发布的新款 iPhone 16 和新的个人智能系统开始。苹果表示，公司的Apple Intelligence将为新机型提供“易于使用的个人智…

点点
2024年9月11日
000
AI前沿

普林斯顿新研究：超强记忆力成AI“破绽”，认知测试可识破人机伪装

当AI的模仿能力日益精进，如何在互动中区分人类与AI成为亟待解决的难题。近日，普林斯顿大学计算机科学与心理学系的联合研究带来了新突破：利用人类固有的认知局限——有限的工作记忆，就能…

王浩然
2026年4月5日
000
AI前沿

AI投资回报的核心：数据健康与人文信任的双重支撑

在企业战略的版图中，人工智能（AI）正从边缘走向核心，成为驱动未来增长的关键引擎。然而，许多企业在推进AI落地时，仍将其视为单纯的技术部署，却忽略了这本质上是一场涉及运营模式与人文…

王浩然
2026年3月29日
000
AI前沿

人工智能如何解决“鸡尾酒会问题”及其对未来音频技术的影响

想象一下，你参加一场人头攒动的活动中，周围都是声音和背景噪音，然而你却能够专心与面前的人交谈。这种在嘈杂背景中分离出特定声音的能力被称为鸡尾酒会问题，该术语由英国科学家 Colin…

点点
2024年9月26日
000
AI前沿

马斯克尝试将Grok AI政治化：对用户和企业的负面影响

在科技巨头的舞台上，埃隆·马斯克的名字总是与创新和颠覆紧密相连。然而，最近马斯克在尝试将其旗下xAI公司的Grok AI大型语言模型（LLM）政治化的过程中，引发了一系列争议。这一…

王浩然
2025年6月25日
000
AI前沿

为什么 DeepSeek 的新 AI 模型认为它是 ChatGPT

本周早些时候，资金雄厚的中国人工智能实验室 DeepSeek 发布了一款“开放”人工智能模型，该模型在热门基准测试中击败了许多竞争对手。该模型DeepSeek V3规模庞大但效率高…

王浩然
2024年12月29日
000
AI前沿

谷歌宣布重组以加速人工智能计划

谷歌首席执行官桑达尔·皮查伊宣布了一系列结构性变革和领导层任命，旨在加速公司的人工智能计划。此次重组后，由 Sissie Hsiao 领导的 Gemini 应用团队将加入由 De…

点点
2024年10月21日
000
AI前沿

2026年实用工具类移动应用四大AI发展趋势前瞻

在移动应用技术飞速迭代的当下，AI技术的融入正在重塑各个细分领域的发展格局，实用工具类应用也不例外。这类覆盖文档扫描、设备内存清理等日常功能的应用，早已成为全球数亿用户的生活刚需。…

王浩然
2026年2月1日
000
AI前沿

BBC 正在使用 AI 生成字幕

广受欢迎的BBC Sounds音频平台正在通过其网站和应用试用新的 AI 生成字幕，这些字幕可以与节目和完整文本一起播放。为期三个月的试用目前仅限于少数几档节目 – I…

王浩然
2024年9月2日
000
AI前沿

巧妙的架构胜过原始计算：DeepSeek 打破了“越大越好”的 AI 开发方法

人工智能的发展已经到达了一个关键的转折点。DeepSeek 的突破——无需依赖最先进的芯片即可实现最先进的性能——证明了 12 月 NeurIPS 上许多人已经宣称的内容：人工智能…

王浩然
2025年2月2日
000
AI前沿

订阅服务领导者为何转向间接增长：多服务捆绑策略的力量

在订阅经济蓬勃发展的今天，各大企业纷纷涌入这片蓝海，试图通过直接面向消费者的策略（DTC）来扩大用户基础并巩固市场地位。然而，随着时间的推移，这一传统增长引擎逐渐显露出疲态。高昂的…

王浩然
2025年6月24日
000
AI前沿

‌OpenAI与Anthropic联合测试揭露AI越狱与滥用风险：企业评估GPT-5必须关注的五大维度‌

在人工智能安全领域迎来历史性突破的时刻，OpenAI与Anthropic这两大行业巨头首次开展跨公司模型安全评估，揭示了当前大语言模型在对抗性测试中令人担忧的行为模式。这项发布于2…

王浩然
2025年8月30日
000
AI前沿

Grab 引入内部机器人技术以管控配送成本

在当今竞争激烈的配送服务市场，成本管理成为企业保持竞争力的关键因素。Grab，作为一家在东南亚地区颇具影响力的科技公司，敏锐地察觉到这一趋势，通过引入内部机器人技术，旨在优化配送流…

王浩然
2026年1月9日
000
AI前沿

Anthropic 发布 Claude Opus 4.5：性能突破与成本革新，重塑企业级 AI 应用格局

Anthropic 正式推出旗舰级大语言模型 Claude Opus 4.5，该模型不仅在编码性能、智能体（Agentic）工作流与企业生产力工具集成上实现重大突破，更以颠覆性定价…

王浩然
2025年11月29日
000
AI前沿

Perplexity推出大规模搜索API挑战谷歌霸主地位：AI搜索领域的新变革‌

在搜索引擎市场竞争日益激烈的当下，AI初创公司Perplexity宣布推出其革命性的大规模搜索API，这一举措被业界视为直接挑战谷歌搜索霸主地位的重要里程碑。该API基于Perpl…

王浩然
2025年9月28日
000
AI前沿

Evil Geniuses与Theta Labs联手推出基于电竞吉祥物Meesh的AI聊天机器人

知名电竞组织Evil Geniuses与Theta Labs携手合作，推出了一款基于其电竞吉祥物Meesh的AI聊天机器人。这款由Theta Labs开发的文本聊天机器人，旨在将M…

王浩然
2025年4月25日
000
AI前沿

AI与数据主权：企业领袖不可回避的新议题——全球调研揭示

在当今这个数据驱动的时代，企业对AI与数据的掌控权已不再是一种奢侈，而是成为生存和发展的必要条件。一份由EDB（企业数据库公司）于2025年2月发布的全球调研报告显示，近三分之二的…

王浩然
2025年7月5日
000
AI前沿

在人工智能时代，数据安全新解法：标记化技术

在当今这个数据为王的时代，企业若想在激烈的市场竞争中立于不败之地，就必须充分挖掘数据的价值。然而，随着数据泄露事件逐年增多，以及人工智能技术的广泛应用，数据安全问题愈发凸显。如何在…

王浩然
2025年4月18日
000
AI前沿

Sparrow获3500万美元B轮融资：AI技术破解员工休假管理难题‌

在远程办公成为常态的后疫情时代，一家专注于员工休假管理的人工智能公司Sparrow近日宣布完成3500万美元B轮融资，由Silver Lake Waterman领投。此次融资使该公…

王浩然
2025年7月29日
000

发表回复

Please Login to Comment

AI如何做出判断？Anthropic研究Claude的价值观

相关推荐

发表回复