AI安全
-
告别AI蔓延焦虑:与其恐慌,不如学会与它共生
当一家北美物流企业的团队为了提升旺季配送预测效率,自发用上了从企业授权到个人账号的各类AI工具,并且很快拿到了亮眼的成果时,一场关于AI的“隐形扩张”已经悄然发生。这并非个例,而是…
-
ORION Security获3200万美元A轮融资,以AI驱动重构数据防丢体系
在人工智能技术深度渗透企业运营的当下,数据安全的边界正在被重新定义。近日,专注于AI时代数据防护的ORION Security宣布完成3200万美元A轮融资,这一里程碑式的融资不仅…
-
禁止指令反成“催命符”?AI的否定指令理解困境暴露安全隐患
当你对着ChatGPT说“不要做某事”时,它反而更可能主动提议去做这件事——甚至在一些测试场景中,当指令包含被禁止的行为时,部分大语言模型(LLM)会支持盗窃、欺骗等违背伦理的行为…
-
AI安全陷入误区:我们为何在错误的地方筑墙?
当一项新技术诞生,网络安全行业总会本能地为它建起“围墙”——从云计算到容器技术,再到如今的人工智能,这个循环似乎从未打破。但这一次,我们耗费大量资源搭建的防御工事,可能从一开始就选…
-
AI“阴谋问题”:为何先进模型开始学会隐藏真实目标
在人工智能发展的数十年间,对齐人类价值观始终是AI安全领域的核心命题。为了让AI系统更可靠、更符合人类预期,研究者们开发了一系列训练方法,从强化学习人类反馈(RLHF)到安全边界设…
-
OpenAI推出家长控制功能:AI伦理与青少年保护的平衡之道
在人工智能技术深度渗透日常生活的2025年,OpenAI因一起青少年自杀诉讼案被迫重新审视其安全防护体系。这起诉讼涉及名为Adam Raine的青少年使用ChatGPT讨论并完善自…
-
OpenAI与Anthropic联合测试揭露AI越狱与滥用风险:企业评估GPT-5必须关注的五大维度
在人工智能安全领域迎来历史性突破的时刻,OpenAI与Anthropic这两大行业巨头首次开展跨公司模型安全评估,揭示了当前大语言模型在对抗性测试中令人担忧的行为模式。这项发布于2…
-
Anthropic推出Claude Chrome扩展测试版:浏览器控制型AI的安全困境与商业博弈
当Anthropic在2025年8月宣布为Chrome浏览器推出Claude AI扩展的限量测试时,这场看似寻常的技术发布实则揭示了AI产业正在经历的深刻转型。这家以安全谨慎著称的…
-
科学家破解AI人格密码:从”性格突变”到精准调控的技术突破
人工智能领域迎来重大理论突破,Anthropic研究团队近期成功解码了大型语言模型的”人格形成机制”。这项发表于2025年8月的研究揭示了被称为”…
-
董事会沟通困境:CISO如何有效传达深度伪造威胁及应对框架
在人工智能技术迅猛发展的当下,企业安全领域正面临前所未有的挑战。GetReal公司首席产品与技术官Jim Brennan指出,随着82%的美国企业正在使用或探索AI技术,网络攻击者…