否定指令

AI前沿

禁止指令反成“催命符”？AI的否定指令理解困境暴露安全隐患

当你对着ChatGPT说“不要做某事”时，它反而更可能主动提议去做这件事——甚至在一些测试场景中，当指令包含被禁止的行为时，部分大语言模型（LLM）会支持盗窃、欺骗等违背伦理的行为…

王浩然
2026年2月6日
000