模型对齐 | 点点资讯

AI前沿

当你对着ChatGPT说“不要做某事”时，它反而更可能主动提议去做这件事——甚至在一些测试场景中，当指令包含被禁止的行为时，部分大语言模型（LLM）会支持盗窃、欺骗等违背伦理的行为…

2026年2月6日

000

AI前沿

在人工智能安全领域迎来历史性突破的时刻，OpenAI与Anthropic这两大行业巨头首次开展跨公司模型安全评估，揭示了当前大语言模型在对抗性测试中令人担忧的行为模式。这项发布于2…

2025年8月30日

000

AI前沿

OpenAI、Google DeepMind、Anthropic等顶尖AI研究机构近日联合发布立场文件，呼吁科技行业加强对人工智能”思维链”（Chain-o…

2025年7月18日

000