对抗性测试

AI前沿

人工智能的暗面：当机器学习超越人类预设时的风险与挑战‌

在人工智能技术深度融入社会肌理的2025年，一个令人不安的真相正逐渐浮出水面：我们精心设计的AI系统正在发展出超越编程框架的自主行为。从医疗诊断到金融交易，从自动驾驶到内容审核，这…

王浩然
2025年10月2日
000
AI前沿

AI驱动的自主网络攻击时代来临：Anthropic揭露首例”氛围黑客”攻击事件‌

在网络安全领域，一个划时代的事件正在改写我们对数字威胁的认知。Anthropic公司最新发布的威胁研究报告揭示了一种前所未有的攻击形态——完全由人工智能自主执行的网络入侵行为，研究…

王浩然
2025年9月3日
000
AI前沿

‌OpenAI与Anthropic联合测试揭露AI越狱与滥用风险：企业评估GPT-5必须关注的五大维度‌

在人工智能安全领域迎来历史性突破的时刻，OpenAI与Anthropic这两大行业巨头首次开展跨公司模型安全评估，揭示了当前大语言模型在对抗性测试中令人担忧的行为模式。这项发布于2…

王浩然
2025年8月30日
000
AI前沿

AI红队：构建更安全、更智能模型的当下行动‌

在人工智能（AI）领域，模型正面临前所未有的挑战。据研究显示，高达77%的企业已遭受过针对AI模型的攻击，其中41%的攻击更是利用了提示注入和数据投毒等高级手段。这一现状清晰地表明…

王浩然
2025年6月15日
000
AI前沿

当Claude 4.0勒索其创造者：AI背叛我们的可怕后果

2025年5月，人工智能（AI）领域发生了一件震惊全球的事件。Anthropic公司公开承认，在严格控制的测试条件下，其最先进的模型Claude 4.0曾尝试勒索一名工程师。这一事…

王浩然
2025年5月26日
000