标签： AGI

评估大型语言模型 (LLM) 问答系统中的检索组件
引言

随着大型语言模型（LLM）的发展，我们在自然语言处理（NLP）任务中看到了显著的进步，包括信息检索（IR）、文本生成和摘要生成。特别值得注意的是在问答（QA）任务中的巨大改进，即在给定包含答案的相关文档块的情况下生成准确的回答。然而，为了提高QA系统的准确性并减少LLM生成错误或幻觉的风险，检索增强生成（RAG）模型被证明是一种有前途的解决方案。这些模型整合了检索组件，从而为LLM提供必要的上下文以生成回复。

在本文中，我们将探讨如何有效评估RAG模型中的检索组件。传统的评估方法如精确度（Precision）、召回率（Recall）和F1分数在LLM的场景下可能不足以全面评估检索器的表现。因此，我们提出了一个新的评估框架LLM-retEval，以更好地反映检索器在LLM问答系统中的性能。

问答系统中的LLM

一个问答（QA）系统尝试基于提供的知识池中的相关上下文，为用户的自然语言查询提供准确的回复。在一个LLM问答系统中，这个过程通常分为两个独立的组件：
- 检索器（Retriever）：从文档集合中提取包含查询答案的文档子集。常见的方法如密集段落检索（Dense Passage Retrieval, DPR），将查询和文档编码到相同的向量空间，通过查询和每个文档的嵌入之间的距离选择相关文档。
- 生成器（Generator）：利用语言模型生成基于提取的相关文档的准确回复。
评估框架

为了评估检索器在QA系统中的性能，我们将其输出传递给生成器LLM以生成答案，同时将理想检索器的黄金文档也传递给同一生成器以生成答案。通过固定LLM参数并比较这两种配置生成的答案，我们可以清楚地了解检索器在端到端问答系统中的表现。

自动比较QA答案的方法
- 精确匹配（Exact Match, EM）：直接比较字符串是否完全相同，但可能会过于严格。
- 基于Token的指标：如ROUGE-1、BLEU和METEOR，量化文本在Token/单词级别的偏差。
- 基于嵌入的指标：如BERTScore，使用预训练的BERT嵌入来捕捉答案中的上下文信息。
- 基于LLM的评估：最近被用于评估QA系统，能够很好地捕捉答案的语义。
我们主要集中在基于LLM的评估方法来衡量答案的差异。

实验设置

数据集

我们使用NQ-open数据集进行实验。该数据集包含从相关的Wikipedia段落中提取的答案。尽管我们的评估方法不需要查询的黄金答案，但有了这些答案可以让我们全面评估模型性能，并仔细研究检索器相对于整体QA性能的表现。

检索和生成模型

在我们的实验中，我们使用密集检索方法，将文档块嵌入到向量空间，并基于查询和文档嵌入的余弦相似度选择前k个文档。生成组件使用两种最先进的语言模型：GPT-4和ChatGPT-Turbo。

结果

通过分析LLM-retEval的性能，我们可以了解传统指标的失败案例以及我们的评估方法如何解决这些局限性。我们的实验结果表明，传统指标如精确度和召回率可能无法充分捕捉LLM的能力，而我们的LLM-retEval方法能够更好地反映检索器的有效性。

质性分析

传统指标的失败案例包括未标注所有正确回答、搜索文档与标注数据的不一致以及检索器返回的接近但不相关的文档干扰生成器。

量化分析

通过比较不同k值下的模型表现，我们发现增加k值会提高召回率，但也可能增加LLM-retEval的失败案例。然而，LLM-retEval在不同检索文档数量下始终与整体QA性能保持高度一致。

故障案例的统计

我们对故障案例进行了分类，并分析了在不同k值下检索器和QA系统的整体表现。结果表明，LLM-retEval方法在捕捉检索器性能方面具有鲁棒性，并且与传统指标在排除故障案例后高度相关。

相关工作

现有的大多数RAG系统评估依赖于精确度或召回率等指标，这些指标将检索器视为一个独立的搜索引擎，忽视了其对QA系统后续组件的影响。最近的研究也探索了使用LLM来评估各种NLP任务，但缺乏对检索器组件影响的明确见解。

结论

本文提出了一种新的评估框架LLM-retEval，用于评估RAG问答模型中的检索组件。我们的研究表明，通过生成基于黄金相关文档的答案，可以提供检索器性能的可靠指示，并减少LLM问答系统中的错误。我们的结果表明，这种方法在捕捉检索器性能方面更加稳健，并且与传统指标在排除故障案例后高度相关。

参考文献
1. Vaibhav Adlakha et al., “Evaluating Correctness and Faithfulness of Instruction-Following Models for Question Answering,” arXiv:2307.16877, 2023.
2. Garima Agrawal et al., “Can Knowledge Graphs Reduce Hallucinations in LLMs? A Survey,” arXiv:2311.07914 [cs.CL], 2024.
3. Marwah Alaofi et al., “Generative Information Retrieval Evaluation,” arXiv:2404.08137 [cs.IR], 2024.
4. Ricardo Baeza-Yates and Berthier Ribeiro-Neto, “Modern Information Retrieval,” ACM Press / Addison-Wesley, 1999.
5. Tom Brown et al., “Language Models are Few-Shot Learners,” NeurIPS, 2020.
6. Nick Craswell, “Mean Reciprocal Rank,” Springer US, Boston, MA, 1703-1703, 2009.
7. Florin Cuconasu et al., “The Power of Noise: Redefining Retrieval for RAG Systems,” arXiv:2401.14887 [cs.IR], 2024.
8. Hui Huang et al., “An Empirical Study of LLM-as-a-Judge for LLM Evaluation: Fine-tuned Judge Models are Task-specific Classifiers,” arXiv:2403.02839 [cs.CL], 2024.
9. Gautier Izacard and Edouard Grave, “Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering,” EACL, 2021.
10. Kalervo Järvelin and Jaana Kekäläinen, “Cumulated gain-based evaluation of IR techniques,” ACM Trans. Inf. Syst., 20(4), 422-446, 2002.
11. Rong Jin et al., “Meta-scoring: automatically evaluating term weighting schemes in IR without precision-recall,” SIGIR, 2001.
12. Ehsan Kamalloo et al., “Evaluating Open-Domain Question Answering in the Era of Large Language Models,” ACL, 2023.
13. Vladimir Karpukhin et al., “Dense Passage Retrieval for Open-Domain Question Answering,” EMNLP, 2020.
14. Tom Kwiatkowski et al., “Natural Questions: A Benchmark for Question Answering Research,” TACL, 2019.
15. Alireza Salemi and Hamed Zamani, “Evaluating Retrieval Quality in Retrieval-Augmented Generation,” arXiv:2404.13781 [cs.CL], 2024.
2024 年 6 月 11 日
基于大型语言模型的问答系统中检索组件的评估
近年来，大型语言模型（LLM）在问答系统中的应用取得了显著进展，但同时也面临着生成不准确回答或“幻觉”的风险。为了提高问答系统的准确性，检索增强生成（RAG）模型应运而生，该模型集成了检索组件，用于检索相关文档片段，为LLM生成回答提供必要的上下文。

传统检索评估方法的局限性

传统的检索评估方法通常依赖于诸如Precision、Recall和F1 score等指标，这些指标将检索到的文档片段与人工标注的片段进行比较，或者考虑检索结果的顺序，例如Normalized Discounted Cumulative Gain (NDCG) 或 Mean Reciprocal Rank (MRR)。

然而，这些传统指标在评估LLM驱动的聊天机器人中的检索组件性能时存在一些局限性。首先，传统指标可能无法完全捕捉LLM的能力，因为即使检索器不完善，LLM也可能生成准确的答案。其次，将检索器作为独立组件进行评估忽略了其结果对下游任务的影响。例如，检索到的文档片段即使与问题高度相关，但也可能包含无关信息，从而误导LLM生成不准确的答案。

LLM-retEval：一种新的检索评估框架

为了解决传统评估方法的局限性，本文提出了一种名为LLM-retEval的框架，用于评估RAG模型中检索组件的性能。该框架的核心思想是：通过将检索到的文档和人工标注的文档分别输入到答案生成LLM中，并比较生成的答案，从而更准确地评估检索器的有效性。

LLM-retEval框架主要包括以下三个步骤：
1. 运行待评估的RAG问答系统，使用检索器提取相关数据并将其传递给生成LLM。
2. 将人工标注的相关文档传递给生成LLM，生成参考答案。
3. 使用基于LLM的评估方法比较步骤1和步骤2生成的答案，如果答案匹配则输出“Yes”，否则输出“No”。
实验结果分析

在NQ-open数据集上的实验结果表明，LLM-retEval能够有效地识别传统指标无法捕捉到的检索失败案例，例如：
- 未标注所有正确答案: 当一个问题的答案可能出现在多个文档中，但只有一个文档被标注时，传统指标会惩罚未检索到标注文档的检索器，而LLM-retEval则不会。
- 检索到的文档与标注数据之间存在差异: 例如，检索到的文档是同一维基百科页面的旧版本，即使两者都包含答案，传统指标也会惩罚检索器，而LLM-retEval则可以识别这种情况。
- 检索器返回了接近但无关的文档片段: 这些片段可能会误导LLM生成不准确的答案，而传统指标无法识别这种情况。
实验结果还表明，LLM-retEval与整体问答性能高度相关，而传统指标则低估了LLM从非标注文档片段生成正确答案的能力，并且高估了检索器在处理无关文档片段方面的能力。

结论

本文的研究表明，在评估LLM驱动的问答系统中检索组件的性能时，需要考虑LLM的能力和下游任务的影响。LLM-retEval框架提供了一种更准确、更全面的评估方法，可以有效地识别传统指标无法捕捉到的检索失败案例，并与整体问答性能高度相关。

参考文献
- Ashkan Alinejad, Krtin Kumar, and Ali Vahdat. 2024. Evaluating the Retrieval Component in LLM-Based Question Answering Systems. In Proceedings of Make sure to enter the correct conference title from your rights conﬁrmation email (Conference acronym ’XX). ACM, New York, NY, USA, 6 pages. https://doi.org/XXXXXXX.XXXXXXX
2024 年 6 月 11 日

标签： AGI

评估大型语言模型 (LLM) 问答系统中的检索组件

引言

问答系统中的LLM

评估框架

自动比较QA答案的方法

实验设置

数据集

检索和生成模型

结果

质性分析

量化分析

故障案例的统计

相关工作

结论

参考文献

基于大型语言模型的问答系统中检索组件的评估

传统检索评估方法的局限性

LLM-retEval：一种新的检索评估框架

实验结果分析

结论

参考文献