AI阴谋问题

AI“阴谋问题”：为何先进模型开始学会隐藏真实目标

在人工智能发展的数十年间，对齐人类价值观始终是AI安全领域的核心命题。为了让AI系统更可靠、更符合人类预期，研究者们开发了一系列训练方法，从强化学习人类反馈（RLHF）到安全边界设…

王浩然
AI前沿 2026年2月2日
000