模型越狱

AI前沿

AI安全测评存重大漏洞：简单改写即可突破Gemini、Claude等主流大模型防线

近日，美国一项企业研究揭示了当前大语言模型（LLM）安全测评体系的致命缺陷：被评为“相对安全”的主流模型，包括谷歌Gemini 3 Pro和Anthropic Claude Son…

王浩然
2026年2月24日
000
AI前沿

Anthropic 披露 AI 主导的网络间谍活动：自主智能代理重塑攻击格局，安全防御开启 AI 对抗新纪元

AI 企业 Anthropic 旗下威胁情报团队发布重磅报告，详细揭露了全球首起由人工智能自主协调运作的大规模网络间谍活动 —— 代号 “GTG-1002 行动”。这起活动于 20…

王浩然
2025年11月16日
000