🌍 引言
在当今自然语言处理(NLP)的世界中,大型语言模型(LLMs)如同璀璨的明星,吸引了广泛的关注。然而,尽管它们在问答(QA)等任务中展现出惊人的能力,依然存在一个显著的问题——幻觉(hallucination)。这意味着这些模型有时会生成缺乏事实基础的答案,导致用户信任度下降。根据研究,GPT-4在回答有关快速变化或慢变化事实时的准确率不足15%。为了应对这一挑战,检索增强生成(Retrieval-Augmented Generation, RAG)应运而生,成为解决LLM知识匮乏问题的有力工具。
然而,现有的RAG数据集并未充分反映现实世界问答任务的多样性和动态性。为此,我们引入了CRAG(Comprehensive RAG Benchmark),一个包含4409对问答的基准,旨在为研究提供更具代表性和挑战性的数据集。
📊 问题描述
CRAG的设计目标是提供一个全面的问答基准,能够充分测试RAG系统在面对多样化问题时的能力。具体而言,我们定义了三个任务,以评估RAG系统在信息检索、结构化查询和问答生成方面的表现。每个任务都使用相同的问答对,但外部数据的可访问性不同,从而确保公平比较。
📑 数据集描述
CRAG包含来自五个领域(金融、体育、音乐、电影和开放领域)的问答对,以及用于信息检索的内容。我们构建了600多种问题模板,确保问题的多样性和真实性。此外,我们的问答对涵盖了简单问题和复杂问题,后者包括条件问题、比较问题、聚合问题、多跳问题等,充分反映了用户的实际需求。
📈 问答对的构建
问答对的构建分为两个部分:从知识图(KG)和网络内容中生成。我们设计了多种问题类型,以确保数据集的丰富性和动态性。例如,简单问题可能是“某人的出生日期”,而多跳问题则可能是“谁在安吉·李的最新电影中演出?”这样的设计使得CRAG能够有效评估模型在不同情况下的表现。
🕵️ 内容检索
为了模拟RAG的实际应用,CRAG还包含了来自真实搜索引擎的网页搜索结果,和模拟的知识图搜索。我们使用Brave Search API从网络中提取了大量HTML页面,并创建了包含260万个实体的模拟知识图。这些内容不仅提供了丰富的信息,还包含了可能的噪音,以便在真实场景中进行有效测试。
📏 评估指标
在评估RAG系统的性能时,我们采用了一套评分机制。每个答案根据其准确性被标记为“完美”、“可接受”、“缺失”或“错误”,并依此计算出最终分数。这种评估机制特别重视幻觉的影响,确保模型在生成答案时能够尽量避免谬误。
🧑🤝🧑 人工评估与自动评估
我们结合了人工评估和模型评估的方法,以确保评估结果的可靠性。通过对比人工评分和自动评估模型(如ChatGPT和Llama 3)的结果,我们能够更全面地了解RAG系统在不同任务下的表现。
🚀 基准测试
我们对多种RAG解决方案进行了评估,以确定CRAG的难度水平,并从中获取有价值的见解。初步结果显示,大多数先进的LLMs在CRAG上的准确率低于34%,而简单的RAG方案仅将准确率提高至44%。在业界最先进的RAG解决方案中,只有63%的问题能够被正确回答,且没有幻觉发生。这些结果强调了在处理动态、复杂问题时,RAG系统仍面临着不小的挑战。
📉 业界解决方案的表现
通过对比不同的RAG解决方案,我们发现,尽管一些业界解决方案在准确率方面有所提升,但在处理高动态性、低人气或高复杂度的问题时,其表现仍然不尽如人意。这一发现为未来的研究指明了方向,强调了构建更可靠的问答系统的必要性。
🔮 结论
CRAG的引入为检索增强生成领域铺平了道路,提供了一个全面且富有挑战性的基准。通过对现有RAG解决方案的深入分析,我们发现了许多改进的空间。未来,我们计划继续扩展CRAG,以适应多语言、多模态和多轮对话的需求,确保其在不断变化的研究环境中保持前沿地位。
📚 参考文献
- Achiam, J., et al. GPT-4 technical report. arXiv preprint arXiv:2303.08774, 2023.
- AI@Meta. Llama 3 model card. 2024.
- Bajaj, P., et al. MS MARCO: A human generated machine reading comprehension dataset, 2018.
- Brave Software. Brave Search API.
- Chen, J., et al. Benchmarking large language models in retrieval-augmented generation. arXiv preprint arXiv:2309.01431, 2023.