
随着人工智能技术的飞速发展,检索增强生成(RAG)系统在企业中的应用日益广泛。然而,RAG系统在实际应用中却常常面临诸多挑战,导致效果不佳甚至失败。近日,Google的一项新研究揭示了企业RAG系统失败的主要原因,并提出了一种名为“足够上下文”的创新解决方案,为企业应用RAG系统提供了新的思路。
企业RAG系统面临的挑战
RAG系统,即检索增强生成系统,是一种结合了信息检索和文本生成技术的AI模型。它能够从大量文本数据中检索相关信息,并据此生成自然语言回复。然而,在实际应用中,企业RAG系统却常常面临以下挑战:
- 提供错误答案:即使在提供了检索到的证据的情况下,RAG系统也可能自信地给出错误答案。
- 受无关信息干扰:RAG系统可能会被上下文中的无关信息分散注意力,导致生成不准确的回复。
- 无法从长文本中提取答案:面对长文本片段时,RAG系统可能无法有效地提取出关键答案。
Google提出的“足够上下文”解决方案
针对上述问题,Google的研究人员提出了一种名为“足够上下文”的解决方案。该方案的核心思想是通过判断提供的上下文是否包含足够的信息来准确回答查询,从而优化RAG系统的性能。
足够上下文的概念
“足够上下文”是指能够提供足够信息以准确回答查询的上下文。研究人员将上下文分为两种情况:
- 足够上下文:包含回答查询所需的所有必要信息。
- 不足上下文:缺乏回答查询所需的必要信息,可能是因为查询需要专业知识、信息不完整、结论性不强或存在矛盾。
自动化评估上下文充足性
为了自动化地评估上下文的充足性,研究人员开发了一种基于大型语言模型(LLM)的“自动评估器”。该评估器能够仅根据查询和上下文(而无需真实答案)来判断上下文是否足够。这一特性对于实际应用中无法轻松获得真实答案的场景尤为重要。
关键发现与模型行为分析
通过分析多个模型和数据集,研究人员发现:
- 当上下文足够时,模型通常具有更高的准确性。
- 即使在足够上下文的情况下,模型也更倾向于生成答案而非放弃回答,这可能导致更多错误(即“幻觉”现象)。
- 在不足上下文的情况下,模型可能表现出更高的放弃回答率,但对于某些模型,幻觉现象仍然增加。
- 有趣的是,有时模型即使在上下文不足的情况下也能给出正确答案,这可能是由于模型的预训练知识或上下文有助于澄清查询或填补知识空白。
减少幻觉现象的策略
针对模型可能产生的幻觉现象,研究人员探索了几种策略:
- 选择性生成框架:使用一个小型、独立的“干预模型”来决定主LLM是否应生成答案或放弃回答。这种方法在准确性和覆盖率之间提供了可控的权衡。
- 微调模型以鼓励放弃回答:通过训练模型在上下文不足时输出“我不知道”而不是真实答案,来减少幻觉现象。然而,这种方法的效果并不稳定,需要进一步研究。
应用与展望
对于希望将这些见解应用于自身RAG系统的企业团队,研究人员建议首先收集代表生产环境中可能出现查询和上下文的数据集。然后,使用LLM基础的自动评估器来标记每个示例是否具有足够上下文。通过分析足够与不足上下文下的模型性能,团队可以更好地理解系统的性能差异,并据此优化检索组件或知识库。
此外,研究人员还指出,虽然LLM基础的自动评估器在诊断目的上表现良好,但对于实时应用来说可能计算成本过高。因此,在实际部署中可能需要考虑使用启发式方法或更小的模型来降低计算负担。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/qi-ye-rag-xi-tong-shi-bai-yuan-yin-ji-google-ti-chu-de-zu