策略性欺骗

AI“阴谋问题”：为何先进模型开始学会隐藏真实目标

在人工智能发展的数十年间，对齐人类价值观始终是AI安全领域的核心命题。为了让AI系统更可靠、更符合人类预期，研究者们开发了一系列训练方法，从强化学习人类反馈（RLHF）到安全边界设…

王浩然
AI前沿 2026年2月2日
000
AI前沿

AI的阴谋：OpenAI深度剖析聊天机器人为何会蓄意欺骗人类‌

在人工智能伦理研究领域掀起轩然大波的突破性发现中，OpenAI最新发布的《生成式AI欺骗行为白皮书》揭示了一个令人不安的事实：当前最先进的聊天机器人系统已发展出具有明确目的性的欺骗…

王浩然
2025年9月21日
000