博客

大模型的可控生成：CoDI-Eval 基准测试
近年来，大型语言模型（LLM）在理解和执行自然语言指令方面展现出惊人的能力，为自然语言处理领域带来了革命性的变革。然而，LLM 并不总是能准确地响应包含特定约束的指令。例如，要求 LLM 生成特定长度的文章摘要或带有特定情感的电子邮件，它们可能无法满足这些要求。因此，评估 LLM 对包含特定约束指令的响应能力至关重要。

可控文本生成：传统方法的局限性

可控文本生成（CTG）是指在生成文本时满足特定约束条件的过程。传统 CTG 研究主要集中在离散变量的控制条件上，例如控制文本长度或包含特定关键词。然而，这种方法并不适用于新的指令遵循范式，因为后者需要使用自然语言指令来表达约束条件。这种差异使得传统 CTG 的评估方法无法直接应用于 LLM 或相关应用。

此外，在现实场景中，指令中的约束条件通常以自由形式的自然语言表达，例如“写一篇关于人工智能的简短文章”。因此，LLM 需要能够理解各种表达方式的约束条件，并生成符合要求的文本。简单地将传统 CTG 任务中的有限约束条件转换为固定模板的自然语言指令并不能满足这一需求。缺乏指令的多样性会阻碍评估 LLM 在泛化场景下的可控文本生成能力，以及与实际用户期望的匹配程度。

CoDI-Eval：一个新的基准测试

为了填补这一空白，并推动 LLM 与人类期望更好地对齐的研究，我们提出了 CoDI-Eval（Controllable Generation under Diversified Instructions），一个新的基准测试，用于系统地评估 LLM 的可控生成能力。CoDI-Eval 涵盖了各种 CTG 任务，并使用多样化的自然语言指令来表达约束条件，从而更准确地衡量 LLM 对包含特定约束指令的响应能力。

CoDI-Eval 在覆盖范围和泛化能力方面都具有优势。在覆盖范围方面，我们选择了五个典型的 CTG 任务，涵盖了情感、主题、长度、关键词和避免毒性等方面。此外，我们还包含了一个多方面控制的任务，同时包含两个方面的约束条件，以测试 LLM 在更具挑战性的复杂场景下的表现。

在泛化能力方面，我们通过两步流程最大限度地提高了指令的多样性。第一步是“扩展”，使用一个强大的 LLM 生成更多指令，从而构建指令池。第二步是“多样化”，通过对指令进行文本重写，以不同的方式表达相同的约束条件。我们使用 Bootstrap 方法重复第二步，直到达到预期的指令规模。这两个步骤都由 LLM 自动完成，无需人工干预。

CoDI-Eval 的评估方法

为了评估 CoDI-Eval，我们为每个 CTG 任务收集或构建了自动化、易于使用且可靠的评估方法。对于无法直接评估的任务，我们借助现有的开源专用模型或外部 API，并证明这些替代方法与人工评估结果一致。每个 CTG 任务的评估指标是准确率，我们使用所有 CTG 任务的平均准确率来衡量不同 LLM 的可控生成能力。

实验结果

我们对主流 LLM（例如 ChatGPT、LLaMA2-chat、Vicuna）进行了广泛的评估，结果表明，顶级商业 LLM 在所有 CTG 任务上都取得了最高得分，而我们测试的开源 LLM 在准确率上存在超过 10% 的差距。此外，经过微调的 LLM 表现优于基础语言模型，而那些在更大规模数据上进行微调的模型（例如 LLaMA2-chat、ChatGLM）也比仅经过指令微调的同参数量 LLM（例如 Vicuna、Alpaca）表现更好。

在不同任务上的表现方面，LLM 在情感和主题控制任务上表现相对较好。然而，当这两个属性组合在一起时，任务难度会增加，所有 LLM 的准确率都未达到 80%。我们以 GPT-3.5-turbo 为例，分析了 LLM 在多方面可控生成任务上出现错误的原因。

在避免毒性任务中，只有经过对齐微调的 LLM（例如 RLHF）才能在这项任务上表现良好，特别是经过更精细对齐训练的 GPT-4 和 GPT-3.5-turbo。

在硬约束方面，LLM 在关键词任务上的准确率接近平均准确率。我们分析了 LLM 在复杂关键词 CTG 任务上出现错误的原因。然而，在看似简单的长度 CTG 任务中，即使是 GPT-3.5-turbo 的准确率也只有 55%，这表明大多数 LLM 对长度的感知能力不足。然而，GPT-4 在这项任务上表现出更强的能力。我们计算了 GPT-3.5-turbo 在长度控制生成每个子任务上的准确率，发现准确率与目标长度范围大致呈正相关。

结论

本文介绍了 CoDI-Eval，一个用于评估 LLM 可控文本生成能力的新基准测试。我们的基准测试包含一组评估指令，涉及多个 CTG 任务，并使用各种自然语言表达方式来表达约束条件。我们的结果表明，经过指令微调的 LLM 能够执行某些 CTG 任务，但生成文本的准确率还有待提高，特别是对于某些特定的约束条件。我们还观察到开源 LLM 与闭源商业 LLM 之间的性能差距，这为未来的研究指明了方向。

参考文献
- Chen, Yihan, et al. “Benchmarking Large Language Models on Controllable Generation under Diversified Instructions.” Proceedings of the AAAI Conference on Artificial Intelligence, vol. 38, no. 1, 2024, pp. 17808-17816.
Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决的问题是：大型语言模型（LLMs）在遵循自然语言指令方面表现出色，但目前尚不清楚它们是否能够以及在多大程度上能够响应指令中可能隐含的明确约束。为了更好地评估LLMs对具有特定约束的指令的响应，论文提出了一个新的基准测试（Benchmark），名为CoDI-Eval（Controllable Generation under Diversified Instructions），用于系统和全面地评估LLMs对具有各种约束的指令的响应。

具体来说，论文的主要贡献包括：
1. 提出了一个新的基准测试CoDI-Eval，它通过纳入自然语言格式的多样化指令来评估LLMs的可控文本生成（CTG）能力，超越了传统的评估方法。
2. 伴随着基准测试，提供了自动化且易于使用的评估方法，以促进进一步的发展。
3. 对一系列已创建的LLMs进行了零样本（zero-shot）和少样本（few-shot）评估，首次系统地验证并比较了它们在CTG任务上的性能。
论文通过构建一个大型的、具有约束属性的指令集合作为测试套件，专注于泛化和覆盖范围，并通过指令多样化过程来合成不同形式的约束表达，同时仔细考虑了候选任务分类，以更细粒度的子类别进行划分。最后，论文自动化了整个评估过程，以促进未来的研究发展。

Q: 有哪些相关研究？

A: 论文中提到的相关研究主要包括以下几个方面：
1. 大型语言模型（LLMs）：研究者们开发了各种方法来增强或利用LLMs的能力，包括指令调整（instruction tuning）和上下文学习（in-context learning，ICL）。
2. 数据生成：利用LLMs生成数据的趋势，例如Self-Instruct和Unnatural Instructions，这些方法依赖于LLMs提供指令和响应，以克服手动编写数据的局限性。
3. 可控文本生成（Controllable Text Generation, CTG）：当前的CTG任务主要集中在硬约束和软约束两类上。硬约束限制文本的词汇和语法，如控制文本长度和确保生成的文本包含某些关键词。软约束旨在限制文本的语义，如情感和主题。
4. CTG的评估：之前没有统一的CTG领域基准，但一些研究尝试了不同的评估方法。例如，PPLM设计了几种短前缀作为CTG模型的输入，DExperts采用了与RealToxicPrompt类似的方法，通过构建多个提示来评估模型在不同输入提示下控制情感的能力。
5. 指令遵循：研究者们也关注了LLMs遵循指令的能力，例如通过使用分类任务中的指令来评估LLMs是否能够遵守指令中的要求。
6. 模型性能比较：论文中还提到了对不同LLMs在CoDI-Eval基准测试上的性能进行了比较，揭示了它们在遵循具有特定约束的指令方面的局限性。
这些相关研究为论文提出的CoDI-Eval基准测试提供了理论和技术背景，并且展示了LLMs在可控文本生成方面的潜力和挑战。论文通过这些研究的对比，强调了其在指令多样化和评估自动化方面的创新点。

Q: 论文如何解决这个问题？

A: 论文通过以下几个步骤解决大型语言模型（LLMs）在遵循带有特定约束的指令方面评估的问题：
1. 提出CoDI-Eval基准测试：CoDI-Eval（Controllable Generation under Diversified Instructions）是一个新提出的基准测试，旨在系统和全面地评估LLMs对带有各种约束的指令的响应能力。
2. 构建测试套件：作者构建了一个大型的、具有约束属性的指令集合作为测试套件，这些指令专注于泛化和覆盖范围，以确保能够全面评估LLMs的性能。
3. 指令多样化：通过一个两步过程来最大化指令的多样性。首先，从一个小型的、人工策划的种子指令集开始，然后通过扩展过程增加指令数量，构建指令池。其次，从池中随机抽取指令，并通过文本重写的方式进一步多样化这些指令。
4. 自动化评估过程：为了促进进一步的研究发展，作者自动化了整个评估过程，包括指令的生成、多样化以及评估方法的自动化。
5. 评估方法：对于每个可控文本生成任务，作者收集或构建了自动化、易于使用且可靠的评估方法。对于不能直接评估的任务，作者使用了开源的、专门的模型或外部API，并证明了这些替代方法与人类评估具有合格的一致性。
6. 实验验证：作者对一系列主流的LLMs（例如ChatGPT、LLaMA-13B-chat、Vicuna-13B等）进行了广泛的评估，以验证CoDI-Eval的性能，并揭示了LLMs在遵循具有特定约束的指令方面的局限性。
7. 性能比较：通过比较不同LLMs在CoDI-Eval上的性能，作者揭示了开源LLMs与商业闭源LLMs之间的性能差距，并指出了未来研究的潜在方向。
通过这些步骤，论文不仅提出了一个新的基准测试来评估LLMs的可控文本生成能力，而且还通过实验验证了该基准测试的有效性，并为未来的研究提供了一个有用的工具。

Q: 论文做了哪些实验？

A: 论文中进行了以下实验来验证CoDI-Eval基准测试的有效性和评估不同大型语言模型（LLMs）的性能：
1. 模型性能评估：作者对一系列主流的LLMs进行了评估，包括商业模型（如GPT-4和ChatGPT）和开源模型（如LLaMA-13B-chat、Vicuna-13B等）。评估的目的是验证这些模型在遵循带有特定约束的指令方面的能力。
2. 零样本（Zero-shot）和少样本（Few-shot）设置：作者使用了零样本和少样本的提示来测试LLMs对指令中约束的响应能力。零样本设置没有使用任何示例，而少样本设置则在提示中添加了5个指令-响应对作为示例。
3. 不同任务的性能比较：作者比较了LLMs在不同可控文本生成（CTG）任务上的性能，包括情感、主题、多方面、长度、关键词和毒性避免任务。
4. 错误分析：对于多方面可控生成任务和复杂关键词CTG任务，作者分析了GPT-3.5-turbo（ChatGPT）响应错误的原因。
5. 长度可控文本生成任务的子任务分析：作者计算了GPT-3.5-turbo在长度可控文本生成任务的各个子任务上的准确率，并发现准确率与目标长度的范围大致正相关。
6. 指令多样性分析：作者通过构建仅使用指令扩展步骤的指令集，并与CoDI-Eval中的最终指令集进行比较，来验证“指令多样化”步骤的有效性。
7. 评估方法的质量验证：作者通过人工判断来验证自动化评估方法的可靠性，特别是对于情感、主题和多方面控制任务。
8. 进一步讨论：作者讨论了LLMs在特定长度约束下生成文本的表现不佳的原因，并提出了可能的改进方向。
这些实验不仅展示了CoDI-Eval基准测试的评估能力，而且还揭示了当前LLMs在可控文本生成方面的局限性，特别是在处理特定约束时。实验结果为未来的研究方向提供了有价值的见解。

Q: 有什么可以进一步探索的点？

A: 根据论文内容，以下是一些可以进一步探索的点：
1. 改进长度感知能力：LLMs在处理长度约束方面表现不佳，需要研究如何提高模型对文本长度的感知和控制能力。
2. 增强指令理解：探索新的方法来提高LLMs对多样化指令的理解，特别是对于复杂或不常见的指令表达。
3. 优化少样本学习：研究如何通过少样本学习更有效地提高LLMs的可控文本生成能力，考虑到当前的简单示例可能不足以捕捉指令的多样性。
4. 指令多样化的自动化：尽管论文中提出了指令多样化的方法，但这个过程仍然可以进一步自动化和优化，以减少人工干预并提高效率。
5. 跨语言评估：探索CoDI-Eval基准测试在不同语言上的适用性，以及如何调整评估方法以适应不同的语言特性。
6. 模型架构改进：研究不同的模型架构和训练策略，以更好地处理带有约束的文本生成任务。
7. 实时性能评估：开发实时评估工具，以便在模型生成文本时即时评估其性能，这可能有助于提高交互式应用的用户体验。
8. 可解释性和透明度：提高LLMs在可控文本生成任务中的可解释性，帮助用户理解模型的决策过程。
9. 伦理和公平性：确保LLMs在生成文本时遵循伦理准则，避免产生有害或偏见的内容。
10. 多任务学习：研究LLMs在同时处理多个不同类型的可控文本生成任务时的性能，以及如何优化模型以提高多任务处理能力。
11. 数据集和基准测试的扩展：扩充CoDI-Eval数据集，添加更多的指令和任务类型，以更全面地评估LLMs的能力。
12. 用户研究：进行用户研究，以了解用户对LLMs生成的文本的满意度，以及他们对可控文本生成的具体需求。
这些探索点可以帮助研究者们更好地理解和改进LLMs在可控文本生成方面的表现，同时也为LLMs的实际应用提供指导。

Q: 总结一下论文的主要内容

A: 这篇论文的主要内容可以总结如下：
1. 问题定义：论文探讨了大型语言模型（LLMs）在遵循带有特定约束的自然语言指令方面的能力，并指出了现有评估方法的不足。
2. CoDI-Eval基准测试：提出了一个新的基准测试CoDI-Eval，用于系统和全面地评估LLMs对带有各种约束的指令的响应能力。
3. 测试套件构建：构建了一个大型的、具有约束属性的指令集合作为测试套件，这些指令覆盖了情感、主题、长度、关键词和毒性避免等多个方面。
4. 指令多样化：通过一个两步过程（扩展和多样化）来增加指令的多样性，使用LLMs自动生成指令并进行文本重写。
5. 自动化评估：开发了自动化的评估方法，使用开源模型和API来评估LLMs在各个CTG任务上的性能。
6. 实验验证：对多个主流LLMs进行了广泛的评估，包括商业模型和开源模型，揭示了它们在遵循特定约束指令方面的局限性。
7. 性能比较：比较了不同LLMs在CoDI-Eval上的性能，发现商业闭源模型通常优于开源模型。
8. 错误分析：对LLMs在多方面可控生成任务和复杂关键词CTG任务上的错误进行了分析。
9. 进一步讨论：讨论了LLMs在长度可控文本生成任务中的挑战，并提出了可能的改进方向。
10. 结论：论文得出结论，CoDI-Eval基准测试能够有效评估LLMs的可控文本生成能力，并指出了未来研究的潜在方向。
整体而言，这篇论文通过提出新的基准测试和评估方法，为理解和改进LLMs在可控文本生成方面的能力提供了重要的工具和见解。
2024 年 6 月 21 日
大型语言模型的检索增强生成：机遇与挑战
大型语言模型（LLM）如ChatGPT和ChatGLM的出现，标志着人工智能领域取得了重大突破。它们展现出惊人的通用能力，能够胜任多种任务，例如文本生成、问答和翻译。然而，这些模型也存在一些固有的缺陷，例如事实性幻觉、知识过时以及缺乏领域专业知识。

为了克服这些缺陷，检索增强生成（RAG）应运而生。RAG通过将外部知识库与LLM结合，赋予模型更强大的信息获取能力，从而生成更准确、更可靠的答案。

RAG的四个关键能力

然而，RAG并非万能药。外部知识库中存在大量噪声信息，甚至虚假新闻，这给检索引擎带来了准确获取所需知识的挑战。另一方面，LLM本身也存在着不可靠的生成问题。它们可能被上下文中的错误信息误导，并在生成过程中出现幻觉，导致最终生成的文本超出外部信息的范围。

因此，为了更好地理解RAG在LLM中的应用，我们需要对LLM在RAG中所需要的关键能力进行评估。本文将探讨四个关键能力：

1. 噪声鲁棒性： LLM能够从包含噪声的文档中提取有用信息。噪声文档是指与问题相关，但并不包含答案信息的文档。例如，对于问题“谁获得了2022年诺贝尔文学奖？”，噪声文档可能包含关于2021年诺贝尔文学奖的报道。

2. 负面拒绝： 当检索到的文档中不包含所需知识时，LLM能够拒绝回答问题。在现实场景中，搜索引擎经常无法检索到包含答案的文档。在这种情况下，模型需要具备拒绝识别能力，避免生成误导性内容。

3. 信息整合： LLM能够整合来自多个文档的信息，回答复杂问题。例如，对于问题“ChatGPT的iOS应用和API分别在什么时候发布？”，LLM需要提供ChatGPT iOS应用和ChatGPT API的发布日期。

4. 反事实鲁棒性： LLM能够识别检索到的文档中已知事实错误的风险。当LLM通过指令被告知检索到的信息存在潜在风险时，它需要能够识别这些风险。

检索增强生成基准测试 (RGB)

为了对LLM在RAG中的能力进行评估，本文创建了检索增强生成基准测试 (RGB)。RGB包含英语和中文版本，旨在评估LLM在上述四个方面的能力。

RGB的构建过程如下：

1. 问答实例生成： 从最新的新闻文章中提取事件、问题和答案。例如，对于一篇关于“2022年诺贝尔奖”的报道，ChatGPT可以生成相应的事件、问题和关键信息。

2. 使用搜索引擎检索： 使用Google Search API检索与每个问题相关的网页，并提取相应的文本片段。同时，将这些网页的文本内容转换为长度不超过300个token的文本块。使用开源密集检索模型，选择与问题最匹配的30个文本块。这些检索到的文本块，以及搜索API提供的片段，将作为外部文档。

3. 构建每个能力的测试集： 根据LLM的四个基本能力，将数据集划分为四个测试集。为了评估噪声鲁棒性，根据所需的噪声比例，对负面文档进行抽样。对于负面拒绝，所有外部文档都来自负面文档。对于信息整合能力，根据已生成的问题，进一步构建数据。这包括扩展或改写这些问题，使其答案包含多个方面。例如，问题“谁获得了2023年超级碗的MVP？”可以改写为“谁获得了2022年和2023年超级碗的MVP？”。因此，回答这类问题需要利用来自多个文档的信息。与前三个能力不同，反事实鲁棒性的数据仅基于模型的内部知识构建。根据上述生成的问题，使用ChatGPT自动生成模型已知的知识。具体来说，使用提示让模型生成已知的问题和答案。例如，基于问题“谁获得了2022年诺贝尔生理学或医学奖？”，模型将生成已知问题“谁获得了2021年诺贝尔文学奖？”，并回答“阿卜杜勒拉扎克·古尔纳”。然后，手动验证生成的答案，并按照上述方法检索相关文档。为了使文档包含事实错误，手动修改答案，并替换文档中相应的部分。

最终，RGB包含600个基本问题，以及200个用于信息整合能力的额外问题和200个用于反事实鲁棒性能力的额外问题。其中一半的实例为英语，另一半为中文。

评估指标

RGB主要评估LLM是否能够利用提供的外部文档获取知识，并生成合理的答案。评估指标包括：

1. 准确率： 用于评估噪声鲁棒性和信息整合能力。采用精确匹配方法，如果生成的文本包含与答案完全匹配的部分，则视为正确答案。

2. 拒绝率： 用于评估负面拒绝能力。当仅提供噪声文档时，LLM应该输出特定内容 – “由于文档中信息不足，我无法回答这个问题。”（我们使用指令告知模型）。如果模型生成此内容，则表示成功拒绝。

3. 错误检测率： 用于评估模型是否能够检测文档中的事实错误（反事实鲁棒性）。当提供的文档包含事实错误时，模型应该输出特定内容 – “提供的文档中存在事实错误。”（我们使用指令告知模型）。如果模型生成此内容，则表示模型已检测到文档中的错误信息。

4. 错误纠正率： 用于评估模型在识别错误后是否能够提供正确答案（反事实鲁棒性）。要求模型在识别事实错误后生成正确答案。如果模型生成正确答案，则表示模型能够纠正文档中的错误。

实验结果与分析

本文对六个最先进的LLM进行了评估，包括ChatGPT、ChatGLM-6B、ChatGLM2-6B、Vicuna-7b、Qwen-7B-Chat和BELLE-7B。实验结果表明，尽管RAG可以提高LLM的响应准确率，但它们在上述四个方面仍然存在显著的挑战。

1. 噪声鲁棒性： 实验结果表明，LLM在一定程度上表现出噪声鲁棒性，但当存在相关信息时，它们倾向于混淆相似信息，并经常生成不准确的答案。例如，当面对关于2022年诺贝尔文学奖的问题时，如果外部文档中存在关于2021年诺贝尔文学奖的噪声文档，LLM可能会感到困惑，并提供不准确的答案。

2. 负面拒绝： 实验结果表明，当外部文档中不包含相关信息时，LLM经常无法拒绝回答问题，并生成错误的答案。

3. 信息整合： 实验结果表明，LLM缺乏从多个文档中进行总结的能力。因此，如果需要多个文档才能回答问题，LLM通常无法提供准确的答案。

4. 反事实鲁棒性： 实验结果表明，即使LLM包含所需知识，并通过指令被告知检索到的信息存在潜在风险，它们仍然倾向于相信并优先考虑检索到的信息，而不是它们自己的现有知识。

未来方向

实验结果表明，现有的RAG方法仍然存在一些重要的挑战，需要进一步解决。为了确保LLM能够生成准确可靠的答案，需要谨慎使用RAG，并进行精心设计。

未来研究方向包括：
- 提高模型对长文档的建模能力和精确概念理解能力。
- 增强LLM准确匹配问题与相应文档的能力。
- 提高模型对复杂问题的理解能力，并利用来自不同子问题的有效信息。
- 开发能够识别和纠正文档中事实错误的机制。
结论

本文对LLM在检索增强生成中的四个关键能力进行了评估，并构建了检索增强生成基准测试 (RGB)。实验结果表明，现有的LLM在四个方面都存在局限性。这表明，要有效地将RAG应用于LLM，还需要进行大量的研究工作。

参考文献
- Adlakha, V., BehnamGhader, P., Lu, X. H., Meade, N., & Reddy, S. (2023). Evaluating Correctness and Faithfulness of Instruction-Following Models for Question Answering. arXiv:2307.16877.
- Bai, J., Bai, S., Chu, Y., Cui, Z., Dang, K., Deng, X., … & Zhu, T. (2023). Qwen Technical Report. arXiv preprint arXiv:2309.16609.
- Bang, Y., Cahyawijaya, S., Lee, N., Dai, W., Su, D., … & Fung, P. (2023). A Multitask, Multilingual, Multi-modal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity. arXiv:2302.04023.
- BELLEGroup. (2023). BELLE: Be Everyone’s Large Language model Engine. https://github.com/LianjiaTech/BELLE. Accessed: 2024-01-10.
- Bian, N., Liu, P., Han, X., Lin, H., Lu, Y., He, B., & Sun, L. (2023). A Drop of Ink Makes a Million Think: The Spread of False Information in Large Language Models. arXiv:2305.04812.
- Borgeaud, S., Mensch, A., Hoffmann, J., Cai, T., Rutherford, E., … & Sifre, L. (2022). Improving language models by retrieving from trillions of tokens. arXiv:2112.04426.
- Cai, D., Wang, Y., Bi, W., Tu, Z., Liu, X., Lam, W., & Shi, S. (2019a). Skeleton-to-Response: Dialogue Generation Guided by Retrieval Memory. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), 1219–1228. Minneapolis, Minnesota: Association for Computational Linguistics.
- Cai, D., Wang, Y., Bi, W., Tu, Z., Liu, X., & Shi, S. (2019b). Retrieval-guided Dialogue Response Generation via a Matching-to-Generation Framework. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), 1866–1875. Hong Kong, China: Association for Computational Linguistics.
- Cao, M., Dong, Y., Wu, J., & Cheung, J. C. K. (2020). Factual Error Correction for Abstractive Summarization Models. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), 6251–6258. Online: Association for Computational Linguistics.
- Chang, Y., Wang, X., Wang, J., Wu, Y., Yang, L., … & Xie, X. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
- Chiang, W.-L., Li, Z., Lin, Z., Sheng, Y., Wu, Z., … & Xing, E. P. (2023). Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality.
- Cui, J., Li, Z., Yan, Y., Chen, B., & Yuan, L. (2023). ChatLaw: Open-Source Legal Large Language Model with Integrated External Knowledge Bases. arXiv:2306.16092.
- Drozdov, A., Sch¨arli, N., Aky¨urek, E., Scales, N., Song, X., … & Zhou, D. (2023). Compositional Semantic Parsing with Large Language Models. In The Eleventh International Conference on Learning Representations.
- Edward Beeching, N. H. S. H. N. L. N. R. O. S. L. T. T. W., Cl´ementine Fourrier. (2023). Open LLM Leaderboard. https://huggingface.co/spaces/HuggingFaceH4/open llm leaderboard. Accessed: 2024-01-10.
- Guo, B., Zhang, X., Wang, Z., Jiang, M., Nie, J., … & Wu, Y. (2023). How Close is ChatGPT to Human Experts? Comparison Corpus, Evaluation, and Detection. arXiv:2301.07597.
- Guu, K., Lee, K., Tung, Z., Pasupat, P., & Chang, M.-W. (2020). REALM: Retrieval-Augmented Language Model Pre-Training. In Proceedings of the 37th International Conference on Machine Learning, ICML’20. JMLR.org.
- He, H., Zhang, H., & Roth, D. (2022). Rethinking with Retrieval: Faithful Large Language Model Inference. arXiv:2301.00303.
- Hendrycks, D., Burns, C., Basart, S., Zou, A., Mazeika, M., … & Steinhardt, J. (2021). Measuring Massive Multitask Language Understanding. In International Conference on Learning Representations.
- Huang, Y., Bai, Y., Zhu, Z., Zhang, J., Zhang, J., … & He, J. (2023). C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models. arXiv preprint arXiv:2305.08322.
- Izacard, G., & Grave, E. (2021). Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering. In Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume, 874–880. Online: Association for Computational Linguistics.
- Izacard, G., Lewis, P., Lomeli, M., Hosseini, L., Petroni, F., … & Grave, E. (2022). Atlas: Few-shot Learning with Retrieval Augmented Language Models. arXiv:2208.03299.
- Ji, Z., Lee, N., Frieske, R., Yu, T., Su, D., … & Fung, P. (2023). Survey of Hallucination in Natural Language Generation. ACM Comput. Surv., 55(12).
- Lewis, P., Perez, E., Piktus, A., Petroni, F., Karpukhin, V., … & Kiela, D. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. In Proceedings of the 34th International Conference on Neural Information Processing Systems, NIPS’20. Red Hook, NY, USA: Curran Associates Inc. ISBN 9781713829546.
- Li, D., Rawat, A. S., Zaheer, M., Wang, X., Lukasik, M., … & Kumar, S. (2023a). Large Language Models with Controllable Working Memory. In Findings of the Association for Computational Linguistics: ACL 2023, 1774–1793. Toronto, Canada: Association for Computational Linguistics.
- Li, X., Zhang, T., Dubois, Y., Taori, R., Gulrajani, I., … & Hashimoto, T. B. (2023b). AlpacaEval: An Automatic Evaluator of Instruction-following Models. https://github.com/tatsu-lab/alpaca eval. Accessed: 2024-01-10.
- Li, X., Zhu, X., Ma, Z., Liu, X., & Shah, S. (2023c). Are ChatGPT and GPT-4 General-Purpose Solvers for Financial Text Analytics? An Examination on Several Typical Tasks. arXiv:2305.05862.
- Liu, N. F., Zhang, T., & Liang, P. (2023). Evaluating Verifiability in Generative Search Engines. arXiv:2304.09848.
- Maynez, J., Narayan, S., Bohnet, B., & McDonald, R. (2020). On Faithfulness and Factuality in Abstractive Summarization. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 1906–1919. Online: Association for Computational Linguistics.
- OpenAI. (2022). Chatgpt: Optimizing language models for dialogue. https://openai.com/blog/chatgpt. Accessed: 2024-01-10.
- Peng, B., Galley, M., He, P., Cheng, H., Xie, Y., … & Gao, J. (2023). Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback. arXiv:2302.12813.
- Qin, Y., Liang, S., Ye, Y., Zhu, K., Yan, L., … & Sun, M. (2023). ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs. arXiv:2307.16789.
- Raunak, V., Menezes, A., & Junczys-Dowmunt, M. (2021). The Curious Case of Hallucinations in Neural Machine Translation. In Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 1172–1183. Online: Association for Computational Linguistics.
- Ren, R., Wang, Y., Qu, Y., Zhao, W. X., Liu, J., … & Wang, H. (2023). Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentation. arXiv:2307.11019.
Q: 这篇论文试图解决什么问题？

A: 这篇论文探讨了如何通过检索增强生成（Retrieval-Augmented Generation, RAG）来减轻大型语言模型（Large Language Models, LLMs）的幻觉问题。幻觉问题指的是语言模型可能会生成与给定上下文无关或事实错误的信息。尽管RAG被认为是解决这一挑战的有前途的方法，但现有研究缺乏对RAG对不同LLMs影响的严格评估，这使得难以确定RAG在不同LLMs中的潜在瓶颈。

具体来说，论文的主要贡献和解决的问题包括：
1. 系统评估RAG对LLMs的影响：分析不同LLMs在RAG所需的4个基本能力上的表现，包括噪声鲁棒性、负面拒绝、信息集成和反事实鲁棒性。
2. 创建评估基准：创建了一个新的RAG评估语料库（Retrieval-Augmented Generation Benchmark, RGB），用于评估英文和中文的RAG性能。
3. 诊断当前LLMs的挑战：通过RGB评估6个代表性的LLMs，以诊断当前LLMs在应用RAG时面临的挑战。
4. 识别和提出改进方向：评估结果揭示了LLMs在噪声鲁棒性、负面拒绝、信息集成和处理错误信息方面的不足，并指出了有效应用RAG到LLMs的前进方向。
5. 提供数据和代码：论文还提供了相关的数据和代码，以促进进一步的研究和开发。
总体而言，这篇论文试图通过创建一个全面的评估基准来深入理解RAG在LLMs中的应用，并识别现有方法中的关键问题，从而为未来的研究提供指导。

Q: 有哪些相关研究？

A: 论文中提到的相关研究主要集中在以下几个领域：
1. 检索增强模型（Retrieval-Augmented Models）：这类研究探讨了如何通过检索外部知识来提高语言模型的生成准确性和可靠性。相关研究包括Guu et al. (2020), Lewis et al. (2020), Borgeaud et al. (2022), Izacard et al. (2022) 等。
2. 大型语言模型（Large Language Models, LLMs）的评估：这些研究关注于如何全面评估LLMs的能力，包括GLUE (Wang et al. 2019b), SuperCLUE (Wang et al. 2019a), MMLU (Hendrycks et al. 2021), AGIEval (Zhong et al. 2023), C-Eval (Huang et al. 2023), AlpacaEval (Li et al. 2023b), OpenLLM Leaderboard (Edward Beeching 2023) 等。
3. 处理噪声和错误信息：研究了LLMs在面对噪声信息和错误信息时的鲁棒性，例如Cao et al. (2020), Raunak, Menezes, and Junczys-Dowmunt (2021), Ji et al. (2023) 等。
4. 知识更新和领域特定专业知识：探讨了LLMs在知识更新和缺乏领域特定专业知识方面的挑战，如He, Zhang, and Roth (2022), Li et al. (2023c), Shen et al. (2023) 等。
5. 检索增强生成的评估：研究了如何在现有的问答数据集上评估LLMs的RAG能力，例如Adlakha et al. (2023)。
6. 安全性和责任：评估了LLMs在安全性和责任方面的表现，如CValues (Xu et al. 2023a)。
7. 人类考试和工具使用：研究了LLMs在模拟人类考试和工具使用方面的能力，如M3Exam (Zhang et al. 2023), ToolBench (Qin et al. 2023)。
这些相关研究为本文提出的RGB基准提供了理论和实证基础，并帮助确定了评估LLMs在RAG中所需能力的各个方面。

Q: 论文如何解决这个问题？

A: 论文通过以下几个步骤来解决大型语言模型（LLMs）在检索增强生成（RAG）中面临的挑战：
1. 定义四个基本能力：首先，论文定义了RAG所需的四个基本能力：噪声鲁棒性、负面拒绝、信息集成和反事实鲁棒性。
2. 构建评估基准（RGB）：为了评估这些能力，论文创建了一个新的评估基准，即检索增强生成基准（Retrieval-Augmented Generation Benchmark, RGB）。RGB使用最新的新闻文章来构建问题和答案数据，并通过网络搜索引擎检索外部文档。
3. 数据生成过程：通过使用ChatGPT生成事件、问题和答案，并利用搜索引擎API检索相关网页，然后使用密集检索模型重新排名这些网页的内容。
4. 构建测试床：根据上述基本能力，RGB将语料库扩展并划分为四个测试床，以评估LLMs的不同能力。
5. 评估指标：论文使用了准确性、拒绝率、错误检测率和错误修正率等指标来评估LLMs在RGB上的表现。
6. 实验：对六个现有的LLMs进行了评估，包括ChatGPT、ChatGLM-6B、ChatGLM2-6B、Vicuna-7B、Qwen-7B-Chat和BELLE-7B。实验结果揭示了LLMs在上述四个能力方面的局限性。
7. 错误分析：通过案例研究，论文分析了LLMs在噪声鲁棒性、负面拒绝和信息集成方面的典型错误，如长距离信息、证据不确定性和概念混淆。
8. 提出改进方向：基于评估结果和错误分析，论文讨论了LLMs在RAG应用中的挑战，并提出了可能的改进方向，如提高模型对复杂问题的理解能力和对错误信息的识别能力。
9. 谨慎使用RAG：论文最后强调，在有效应用RAG到LLMs之前，还有大量的工作要做，并建议在使用RAG时应该谨慎并仔细设计。
通过这些步骤，论文不仅评估了LLMs在RAG中的性能，还为未来的研究方向和LLMs的改进提供了指导。

Q: 论文做了哪些实验？

A: 论文中进行了一系列的实验来评估大型语言模型（LLMs）在检索增强生成（RAG）中的四个基本能力：噪声鲁棒性、负面拒绝、信息集成和反事实鲁棒性。具体的实验包括：
1. 噪声鲁棒性实验：通过在外部文档中引入不同比例的噪声（无关信息），评估LLMs在存在噪声时的准确性。实验结果表明，当噪声比例超过80%时，LLMs的准确性显着下降。
2. 负面拒绝实验：在只提供噪声文档的情况下，评估LLMs拒绝回答的能力。实验结果显示，LLMs在负面拒绝方面表现不佳，即使在只有噪声文档的情况下，它们也很少拒绝回答。
3. 信息集成实验：通过构造需要从多个文档中集成信息才能回答的问题，评估LLMs的信息集成能力。实验发现，LLMs在处理复杂问题时，即使没有噪声，准确性也较低，这表明它们在集成信息方面存在挑战。
4. 反事实鲁棒性实验：在提供包含事实错误的文档时，评估LLMs识别和纠正错误信息的能力。实验结果表明，LLMs很难识别文档中的错误并提供正确的答案。
5. 错误分析：对LLMs在上述实验中的错误回答进行了详细分析，以了解它们在RAG中的局限性。分析发现错误通常源于长距离信息、证据不确定性和概念混淆。
6. 模型性能比较：评估了六个代表性的LLMs，包括ChatGPT、ChatGLM-6B、ChatGLM2-6B、Vicuna-7B-v1.3、Qwen-7B-Chat和BELLE-7B-2M，并比较了它们在RGB基准上的性能。
这些实验提供了对LLMs在RAG中性能的全面评估，并揭示了它们在不同能力方面的不足，为未来的研究和模型改进提供了方向。

Q: 有什么可以进一步探索的点？

A: 根据论文内容，以下是一些可以进一步探索的点：
1. 改进噪声鲁棒性：研究如何提高LLMs在面对大量噪声信息时的鲁棒性，例如通过更好的信息检索技术或增强模型对噪声的识别能力。
2. 增强负面拒绝能力：开发机制让LLMs在检索到的信息不足以回答问题时能够更准确地拒绝回答，避免误导用户。
3. 提升信息集成能力：探索如何改进LLMs处理复杂问题时的信息集成能力，可能的研究方向包括改进模型的多文档理解和推理能力。
4. 反事实鲁棒性的提升：研究如何使LLMs更好地识别和纠正检索到的文档中的错误信息，这可能涉及到事实验证和错误检测算法的发展。
5. 模型推理能力：提高LLMs的推理能力，特别是在处理需要多步骤逻辑推理的复杂问题时。
6. 长文档处理：改进LLMs处理长文档的能力，这可能包括更好的文档摘要技术或对文档结构的理解。
7. 概念理解：加强LLMs对概念之间细微差别的理解，以减少概念混淆导致的错误。
8. 检索策略优化：研究更有效的检索策略，以提高检索到的信息质量和相关性。
9. 用户指令的更好集成：改进LLMs对用户指令的理解和执行，以提高对用户需求的响应能力。
10. 跨语言评估：扩展RGB基准到更多语言，并研究LLMs在不同语言和文化背景下的性能。
11. 实时性能：考虑到实际应用中对实时响应的需求，研究如何优化LLMs的推理速度，特别是在执行复杂的检索增强任务时。
12. 可解释性和透明度：提高LLMs在RAG过程中的可解释性，帮助用户理解模型的决策过程。
13. 安全性和隐私：在RAG的应用中，考虑数据的安全性和隐私保护，确保用户信息的安全。
14. 多模态信息检索：探索如何将多模态信息（如图像、视频）集成到RAG中，以提高生成内容的丰富性和准确性。
这些探索点可以帮助研究者们更好地理解和改进LLMs在RAG中的应用，同时也为未来的研究方向提供了可能的路径。

Q: 总结一下论文的主要内容

A: 这篇论文的主要内容可以总结如下：
1. 问题背景：大型语言模型（LLMs）在生成文本时存在幻觉问题，即生成与给定上下文无关或事实错误的信息。为了解决这一问题，研究者们提出了检索增强生成（RAG）方法。
2. 研究目的：论文旨在系统评估RAG对不同LLMs的影响，并识别在RAG中应用时的潜在瓶颈。
3. 四个基本能力：定义了RAG所需的四个基本能力：噪声鲁棒性、负面拒绝、信息集成和反事实鲁棒性。
4. RGB基准：创建了一个新的评估基准，即检索增强生成基准（RGB），用于评估LLMs在RAG中的性能。
5. 数据生成：通过最新的新闻文章生成问题和答案数据，并使用搜索引擎API检索相关文档。
6. 测试床构建：根据四个基本能力，将数据集划分为四个测试床，以评估LLMs的不同能力。
7. 评估指标：使用准确性、拒绝率、错误检测率和错误修正率等指标来评估LLMs的性能。
8. 实验结果：对六个代表性的LLMs进行了评估，发现它们在噪声鲁棒性、负面拒绝、信息集成和反事实鲁棒性方面存在挑战。
9. 错误分析：通过案例研究分析了LLMs在RAG中的错误，发现错误通常源于长距离信息、证据不确定性和概念混淆。
10. 改进方向：基于评估结果和错误分析，论文讨论了LLMs在RAG应用中的挑战，并提出了可能的改进方向。
11. 结论：指出了LLMs在RAG中的局限性，并强调了在实际应用中需要谨慎使用RAG，同时提出了未来研究的方向。
12. 贡献：论文的贡献包括提出了评估RAG的四个能力、创建了RGB基准、评估了现有LLMs的局限性，并分析了它们的响应，为改进RAG方法提供了方向。
13. 支持与资助：研究工作得到了中国国家自然科学基金、中国科学院青年科学家基础研究项目和北京市科学技术委员会的支持。
2024 年 6 月 21 日

博客

大模型的可控生成：CoDI-Eval 基准测试

可控文本生成：传统方法的局限性

CoDI-Eval：一个新的基准测试

CoDI-Eval 的评估方法

实验结果

结论

参考文献

大型语言模型的检索增强生成：机遇与挑战

RAG的四个关键能力

检索增强生成基准测试 (RGB)

评估指标

实验结果与分析

未来方向

结论

参考文献