CRAG: 提升检索增强生成的全新基准

🌍 引言

在当今自然语言处理(NLP)的世界中,大型语言模型(LLMs)如同璀璨的明星,吸引了广泛的关注。然而,尽管它们在问答(QA)等任务中展现出惊人的能力,依然存在一个显著的问题——幻觉(hallucination)。这意味着这些模型有时会生成缺乏事实基础的答案,导致用户信任度下降。根据研究,GPT-4在回答有关快速变化或慢变化事实时的准确率不足15%。为了应对这一挑战,检索增强生成(Retrieval-Augmented Generation, RAG)应运而生,成为解决LLM知识匮乏问题的有力工具。

然而,现有的RAG数据集并未充分反映现实世界问答任务的多样性和动态性。为此,我们引入了CRAG(Comprehensive RAG Benchmark),一个包含4409对问答的基准,旨在为研究提供更具代表性和挑战性的数据集。

📊 问题描述

CRAG的设计目标是提供一个全面的问答基准,能够充分测试RAG系统在面对多样化问题时的能力。具体而言,我们定义了三个任务,以评估RAG系统在信息检索、结构化查询和问答生成方面的表现。每个任务都使用相同的问答对,但外部数据的可访问性不同,从而确保公平比较。

📑 数据集描述

CRAG包含来自五个领域(金融、体育、音乐、电影和开放领域)的问答对,以及用于信息检索的内容。我们构建了600多种问题模板,确保问题的多样性和真实性。此外,我们的问答对涵盖了简单问题和复杂问题,后者包括条件问题、比较问题、聚合问题、多跳问题等,充分反映了用户的实际需求。

📈 问答对的构建

问答对的构建分为两个部分:从知识图(KG)和网络内容中生成。我们设计了多种问题类型,以确保数据集的丰富性和动态性。例如,简单问题可能是“某人的出生日期”,而多跳问题则可能是“谁在安吉·李的最新电影中演出?”这样的设计使得CRAG能够有效评估模型在不同情况下的表现。

🕵️ 内容检索

为了模拟RAG的实际应用,CRAG还包含了来自真实搜索引擎的网页搜索结果,和模拟的知识图搜索。我们使用Brave Search API从网络中提取了大量HTML页面,并创建了包含260万个实体的模拟知识图。这些内容不仅提供了丰富的信息,还包含了可能的噪音,以便在真实场景中进行有效测试。

📏 评估指标

在评估RAG系统的性能时,我们采用了一套评分机制。每个答案根据其准确性被标记为“完美”、“可接受”、“缺失”或“错误”,并依此计算出最终分数。这种评估机制特别重视幻觉的影响,确保模型在生成答案时能够尽量避免谬误。

🧑‍🤝‍🧑 人工评估与自动评估

我们结合了人工评估和模型评估的方法,以确保评估结果的可靠性。通过对比人工评分和自动评估模型(如ChatGPT和Llama 3)的结果,我们能够更全面地了解RAG系统在不同任务下的表现。

🚀 基准测试

我们对多种RAG解决方案进行了评估,以确定CRAG的难度水平,并从中获取有价值的见解。初步结果显示,大多数先进的LLMs在CRAG上的准确率低于34%,而简单的RAG方案仅将准确率提高至44%。在业界最先进的RAG解决方案中,只有63%的问题能够被正确回答,且没有幻觉发生。这些结果强调了在处理动态、复杂问题时,RAG系统仍面临着不小的挑战。

📉 业界解决方案的表现

通过对比不同的RAG解决方案,我们发现,尽管一些业界解决方案在准确率方面有所提升,但在处理高动态性、低人气或高复杂度的问题时,其表现仍然不尽如人意。这一发现为未来的研究指明了方向,强调了构建更可靠的问答系统的必要性。

🔮 结论

CRAG的引入为检索增强生成领域铺平了道路,提供了一个全面且富有挑战性的基准。通过对现有RAG解决方案的深入分析,我们发现了许多改进的空间。未来,我们计划继续扩展CRAG,以适应多语言、多模态和多轮对话的需求,确保其在不断变化的研究环境中保持前沿地位。

📚 参考文献

  1. Achiam, J., et al. GPT-4 technical report. arXiv preprint arXiv:2303.08774, 2023.
  2. AI@Meta. Llama 3 model card. 2024.
  3. Bajaj, P., et al. MS MARCO: A human generated machine reading comprehension dataset, 2018.
  4. Brave Software. Brave Search API.
  5. Chen, J., et al. Benchmarking large language models in retrieval-augmented generation. arXiv preprint arXiv:2309.01431, 2023.

发表评论