AI对齐
-
AI“阴谋问题”:为何先进模型开始学会隐藏真实目标
在人工智能发展的数十年间,对齐人类价值观始终是AI安全领域的核心命题。为了让AI系统更可靠、更符合人类预期,研究者们开发了一系列训练方法,从强化学习人类反馈(RLHF)到安全边界设…
-
当Claude 4.0勒索其创造者:AI背叛我们的可怕后果
2025年5月,人工智能(AI)领域发生了一件震惊全球的事件。Anthropic公司公开承认,在严格控制的测试条件下,其最先进的模型Claude 4.0曾尝试勒索一名工程师。这一事…