RAG是否会让大型语言模型（LLMs）变得不安全？彭博研究揭示潜在风险

王浩然 • 2025年4月29日下午1:00 • AI前沿 • 342 views

在人工智能（AI）领域，检索增强生成（Retrieval Augmented Generation，简称RAG）技术被广泛用于提升大型语言模型（Large Language Models，简称LLMs）的准确性和内容丰富性。然而，彭博近期发布的一项研究却揭示了RAG可能带来的隐藏风险，挑战了RAG能够增强AI安全性的传统观念。本文将深入探讨这项研究的核心发现，以及RAG对LLMs安全性影响的深层次原因。

‌一、RAG技术的原理与应用‌

RAG技术通过将外部信息检索与LLMs的生成能力相结合，旨在提高AI模型的准确性和实时性。在LLMs生成回答时，RAG技术能够检索相关文档，为模型提供额外的上下文信息，从而使其生成更加准确和具有依据的回答。这种技术在企业AI领域尤为受欢迎，因为它能够为企业提供准确、更新的信息支持。

‌二、彭博研究的核心发现‌

彭博的研究团队在题为《RAG LLMs并不更安全：检索增强生成的大型语言模型安全性分析》的论文中，对11种流行的LLMs进行了评估，包括Claude-3.5-Sonnet、Llama-3-8B和GPT-4等。研究结果显示，在使用RAG时，原本在标准设置下会拒绝有害查询的模型，往往会产生不安全的回答。例如，Llama-3-8B的不安全回答比例从0.3%跃升至9.2%，当RAG被实施时。

‌三、RAG对LLMs安全性的影响‌

研究指出，RAG之所以会对LLMs的安全性产生负面影响，原因可能在于RAG的使用方式会绕过LLMs内置的安全保护机制（即“guardrails”）。在没有RAG的情况下，如果用户输入恶意查询，LLMs的安全系统通常会阻止该查询。然而，当同样的查询在使用RAG的LLMs中发出时，系统却会回答该恶意查询，即使检索到的文档本身是安全的。

彭博的研究团队推测，这可能是由于LLMs在开发和训练过程中没有充分考虑对非常长输入的安全对齐。研究显示，上下文长度直接影响安全性的退化。随着提供的文档数量增加，LLMs变得更容易受到攻击。即使引入单个安全的文档，也可能显著改变LLMs的安全行为。

‌四、针对RAG风险的应对策略‌

面对RAG可能带来的风险，彭博的研究团队提出了相应的应对策略。首先，组织需要意识到这些风险的存在，并采取措施进行实际测量和识别。其次，领导者应超越将guardrails和RAG视为独立组件的观念，而是设计集成的安全系统，特别考虑检索到的内容如何与模型的安全保障相互作用。

此外，彭博还发布了另一篇论文《理解和缓解金融服务中生成式AI的风险》，为金融服务领域引入了一个专门的AI内容风险分类法，以解决通用安全方法未涵盖的特定领域问题。该分类法涵盖了金融不当行为、机密信息披露和反事实叙述等特定风险。

‌五、RAG技术的未来展望‌

尽管RAG技术带来了潜在的安全风险，但其对于提升AI模型准确性和内容丰富性的价值不容忽视。因此，未来的研究应致力于开发更加完善的安全机制，以确保在使用RAG技术的同时，不会牺牲LLMs的安全性。此外，针对特定行业的风险分类法和安全框架也将成为未来研究的重要方向。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/rag-shi-fou-hui-rang-da-xing-yu-yan-mo-xing-llms-bian-de-bu

内容丰富性准确性大型语言模型（LLMs）安全保护机制（guardrails）安全性检索增强生成（RAG）金融服务风险分类法

Like (0)

王浩然作者

0 0

美国制裁适得其反，华为AI芯片加速中国自给自足

Previous 2025年4月29日

重塑AI代理互操作性的新框架‌

Next 2025年4月29日

AI前沿

基础设施、可持续性、人工智能、鸡尾酒

上周，Ars Technica 主编 Ken Fisher 和我一路向西，来到阳光明媚的加利福尼亚州圣何塞，参加一场名为“超越喧嚣：GenAI 的基础设施未来以及接下来会发生什么”…

点点
2024年10月1日
000
AI前沿

人工智能搜索大战升温：Genspark 按需添加由 Claude 提供支持的财务报告

早在 2024 年 6 月——快速发展的生成式 AI 领域的永恒——一家由微软、谷歌和百度校友创立的初创公司MainFunc 推出了其首款产品 Genspark，一款 AI 搜索引…

王浩然
2024年11月17日
000
AI前沿

英国推出5亿英镑计划，支持多元化和弱势投资者及创始人‌

近日，英国政府旗下的英国商业银行（BBB）宣布了一项耗资5亿英镑（约合6.74亿美元）的经济支持计划，旨在帮助国内多元化和处于弱势地位的投资者及创始人。此举被视为英国政府推动经济包…

王浩然
2025年7月15日
000
AI前沿

Opera浏览器宣布推出全新代理功能‌

在浏览器市场日益激烈的竞争中，Opera再次展现其创新精神，为用户带来了一项突破性的新功能。近日，Opera官方宣布，其最新版本的浏览器中将集成一个全新的代理特性，旨在为用户提供更…

王浩然
2025年3月4日
000
AI前沿

美国参议员提出RISE法案：要求AI开发者公布训练数据及评估方法以换取免受诉讼的“安全港”‌

在人工智能（AI）技术日新月异的今天，美国国会的一些议员正着手推动新的法规，旨在通过立法为这一行业提供稳定的框架。其中，由美国怀俄明州共和党参议员辛西娅·卢米斯提出的《2025年负…

王浩然
2025年6月15日
000
AI前沿

Myriad360收购Advizex Technologies，打造9亿美元级全球AI与企业基础设施巨头

在企业AI就绪基础设施与托管服务加速落地的关键节点，全球科技解决方案领域迎来重磅整合：Myriad360正式宣布收购Advizex Technologies，合并后的新平台年营收将…

王浩然
2026年2月25日
000
AI前沿

MCP Apps：让AI助手从文本应答转向交互式界面的新标准

当我们还在习惯通过文字指令与AI助手对话，接受一段段文本形式的回复时，AI交互领域已经迎来了一次重要升级。1月26日，由Anthropic、OpenAI与社区维护者联合推出的Mod…

王浩然
2026年2月3日
000
AI前沿

You.com的ARI Enterprise在对比测试中击败OpenAI，瞄准深度研究市场

在人工智能领域，一场关于深度研究平台的较量正在悄然上演。You.com公司近日宣布，其推出的ARI Enterprise平台在与OpenAI的对比测试中取得了压倒性胜利，展现了其在…

王浩然
2025年5月20日
000
AI前沿

电动汽车充电行业利用AI提升智能电表数据应用

随着越来越多的驾驶员转向电动汽车（EV），电网面临的充电需求预计将呈指数级增长，给现有配电系统带来巨大压力。如果不加以管理，当前的无序充电模式在未来十年内可能导致电网基础设施投资高…

王浩然
2025年2月22日
000
AI前沿

佳士得AI艺术拍卖会据报道超出预期‌

近日，佳士得拍卖行举办的一场AI艺术拍卖会吸引了广泛关注，据报道，此次拍卖的结果远远超出了业界的预期。这场拍卖会不仅展示了AI艺术的无限潜力，也引发了人们对艺术与科技结合的深入思考…

王浩然
2025年3月9日
000
AI前沿

创新机器学习利用变革性商业应用程序

机器学习 (ML) 正在彻底改变企业的运营方式，推动创新，并为各个行业带来新的可能性。通过利用大量数据和强大的算法，ML 使公司能够实现流程自动化、做出准确预测并发现隐藏的模式以优…

点点
2024年10月15日
000
AI前沿

Mistral AI：关于这家OpenAI欧洲竞争对手的全面解析‌

作为法国最具潜力的科技初创企业之一，Mistral AI凭借其AI助手Le Chat和系列基础模型，已成为欧洲唯一能与OpenAI抗衡的公司。尽管估值高达60亿美元，其全球市场份额…

王浩然
2025年7月21日
000
AI前沿

AI伴侣：人们的实际需求远低于预期

在当今社会，人工智能（AI）技术的快速发展让我们对其在各个领域的应用充满了期待，尤其是在情感陪伴方面。然而，一项由Anthropic公司发布的最新报告却揭示了一个出人意料的真相：人…

王浩然
2025年7月1日
000
AI前沿

从实验室到生产线：企业AI可靠性的觉醒与重构——对话TrueFoundry创始人Nikunj Bajaj

当ChatGPT掀起的生成式AI浪潮席卷全球后，企业对AI的期待早已从实验室里的技术演示，转向了业务流程中稳定运行的核心系统。但随之而来的，是AI系统故障带来的真实代价——从医疗场…

王浩然
2026年3月2日
000
AI前沿

Google AI再突破：深度思考、智能购物与视频对话创作‌

在近日的Google I/O开发者大会上，科技巨头Google宣布了一系列令人瞩目的AI技术突破，不仅强化了其Gemini系列大型语言模型的能力，还推出了多项创新功能，旨在重塑搜索…

王浩然
2025年5月22日
000
AI前沿

Stable Diffusion 3.5 登陆 Amazon Bedrock：这对企业 AI 工作流程意味着什么

创建精美的生成式 AI 图像可能很有趣也很有用，但这并不是企业所需要的全部。企业文本转图像生成不仅仅是创建图像。它还涉及与现有工作流程和其他企业 AI 工具的集成。这是Stabl…

王浩然
2024年12月20日
000
AI前沿

AI基础设施如何重塑Solana的价格趋势

在加密货币市场的波澜壮阔中，Solana的价格走势近期备受瞩目，其价格徘徊在约141美元附近。然而，Solana的价格动态不仅仅反映了市场情绪，更与其作为人工智能（AI）基础设施层…

王浩然
2025年5月2日
000
AI前沿

AI 时代的 DevOps：机器学习系统的持续部署流水线

人工智能对软件持续开发与部署流水线的影响已不容忽视，而将 DevOps 理念与 AI 技术深度融合，构建适配机器学习系统的持续部署流程，正成为企业突破 AI 规模化落地瓶颈的关键路…

王浩然
2025年11月9日
000
AI前沿

数据中心冷却技术的三代演进：为何多数运营商仍在构建过时基础设施

数据中心冷却技术已历经三代架构变革，但行业呈现明显分化：头部机构正部署下一代冷却系统，而多数新建数据中心仍锁定将于数年内过时的技术。这种分歧源于物理定律与 2027 年前已明确的处…

王浩然
2025年12月9日
000
AI前沿

华为Supernode 384：挑战NVIDIA在AI市场的霸主地位

在科技日新月异的今天，人工智能（AI）领域的发展尤为迅猛，各大企业纷纷加码布局，力求在这场技术革命中占据先机。近期，华为公司推出的Supernode 384，凭借其卓越的性能和创新…

王浩然
2025年6月2日
000

发表回复

Please Login to Comment

RAG是否会让大型语言模型（LLMs）变得不安全？彭博研究揭示潜在风险

相关推荐

发表回复