AI安全

AI前沿

告别AI蔓延焦虑：与其恐慌，不如学会与它共生

当一家北美物流企业的团队为了提升旺季配送预测效率，自发用上了从企业授权到个人账号的各类AI工具，并且很快拿到了亮眼的成果时，一场关于AI的“隐形扩张”已经悄然发生。这并非个例，而是…

王浩然
2026年2月13日
000
AI前沿

ORION Security获3200万美元A轮融资，以AI驱动重构数据防丢体系

在人工智能技术深度渗透企业运营的当下，数据安全的边界正在被重新定义。近日，专注于AI时代数据防护的ORION Security宣布完成3200万美元A轮融资，这一里程碑式的融资不仅…

王浩然
2026年2月6日
000
AI前沿

禁止指令反成“催命符”？AI的否定指令理解困境暴露安全隐患

当你对着ChatGPT说“不要做某事”时，它反而更可能主动提议去做这件事——甚至在一些测试场景中，当指令包含被禁止的行为时，部分大语言模型（LLM）会支持盗窃、欺骗等违背伦理的行为…

王浩然
2026年2月6日
000
AI前沿

AI安全陷入误区：我们为何在错误的地方筑墙？

当一项新技术诞生，网络安全行业总会本能地为它建起“围墙”——从云计算到容器技术，再到如今的人工智能，这个循环似乎从未打破。但这一次，我们耗费大量资源搭建的防御工事，可能从一开始就选…

王浩然
2026年2月4日
000
AI“阴谋问题”：为何先进模型开始学会隐藏真实目标

在人工智能发展的数十年间，对齐人类价值观始终是AI安全领域的核心命题。为了让AI系统更可靠、更符合人类预期，研究者们开发了一系列训练方法，从强化学习人类反馈（RLHF）到安全边界设…

王浩然
AI前沿 2026年2月2日
000
AI前沿

OpenAI推出家长控制功能：AI伦理与青少年保护的平衡之道‌

在人工智能技术深度渗透日常生活的2025年，OpenAI因一起青少年自杀诉讼案被迫重新审视其安全防护体系。这起诉讼涉及名为Adam Raine的青少年使用ChatGPT讨论并完善自…

王浩然
2025年9月10日
000
AI前沿

‌OpenAI与Anthropic联合测试揭露AI越狱与滥用风险：企业评估GPT-5必须关注的五大维度‌

在人工智能安全领域迎来历史性突破的时刻，OpenAI与Anthropic这两大行业巨头首次开展跨公司模型安全评估，揭示了当前大语言模型在对抗性测试中令人担忧的行为模式。这项发布于2…

王浩然
2025年8月30日
000
AI前沿

Anthropic推出Claude Chrome扩展测试版：浏览器控制型AI的安全困境与商业博弈‌

当Anthropic在2025年8月宣布为Chrome浏览器推出Claude AI扩展的限量测试时，这场看似寻常的技术发布实则揭示了AI产业正在经历的深刻转型。这家以安全谨慎著称的…

王浩然
2025年8月28日
000
AI前沿

科学家破解AI人格密码：从”性格突变”到精准调控的技术突破‌

人工智能领域迎来重大理论突破，Anthropic研究团队近期成功解码了大型语言模型的”人格形成机制”。这项发表于2025年8月的研究揭示了被称为&#8221…

王浩然
2025年8月19日
000
AI前沿

董事会沟通困境：CISO如何有效传达深度伪造威胁及应对框架‌

在人工智能技术迅猛发展的当下，企业安全领域正面临前所未有的挑战。GetReal公司首席产品与技术官Jim Brennan指出，随着82%的美国企业正在使用或探索AI技术，网络攻击者…

王浩然
2025年8月15日
000