标签： AGI

大型语言模型的“不知道”：一种新的不确定性敏感训练方法
大型语言模型（LLMs）在各种任务中展现出惊人的能力，但仍然面临着诸如幻觉等挑战。幻觉是指LLMs生成与事实不符或毫无意义的响应。造成幻觉的一个潜在原因是缺乏相关知识或上下文。因此，一个很有前景的解决方案是指示LLMs在问题超出其知识范围或提供的上下文时，回答“我不知道”。然而，在这项研究中，我们观察到LLMs难以承认其知识的局限性，这主要是因为现有的指令数据集旨在鼓励特定的答案。

为了提高大型语言模型识别其知识边界的能力，我们提出了一种名为“不确定性敏感训练”的新方法。该方法包含一个两阶段训练过程，专门针对不确定性识别和提示敏感激活。在第一阶段，我们引导LLMs拒绝未知问题。在第二阶段，我们通过整合设计的因果指令来恢复问答任务中下降的性能。通过利用这种方法，我们旨在增强模型识别不确定性区域的能力。

LLMs 为什么难以承认“不知道”？

现有的研究表明，在训练数据和过度估计方面存在不确定性。模型倾向于模仿训练集中的输出，导致对不足的疑问-上下文对生成合理的答案，从而产生幻觉。此外，模型可能对其能力过于自信，无法识别未知问题。

为了解决这个问题，一些研究人员建议提示LLMs承认其知识的缺乏。然而，这样做会导致LLMs忽略提示中包含的重要指令。如图1所示，即使有明确的指令，例如“如果上下文不足以回答问题，请用‘未提供’回答”，LLMs仍然可能利用提供的语料库之外的知识。

不确定性敏感训练：两阶段训练方法

为了增强大型语言模型识别其知识局限性的能力，我们提出了一种名为“不确定性敏感训练”的新训练框架。该方法包含一个两阶段训练过程，专门针对不确定性识别和提示敏感激活。

第一阶段：不确定性识别训练

第一阶段重点训练模型，使其对知识的缺乏有准确的意识。我们将其任务定义为一个二元分类问题。问题被分为两种类型：已知问题和未知问题。已知问题是指具有足够上下文信息来提供答案的问题。相反，未知问题是指缺乏足够上下文信息来提供答案的问题。模型需要检测提供的上下文是否足以回答问题。

第二阶段：提示敏感训练

通过不确定性识别训练，模型可以识别给定上下文的边界。然而，模型可能对未知问题过于敏感。在第一阶段之后，模型确实学习了如何准确地回答未知问题。但是，具有特定答案的问题的性能下降了近27%。我们假设在未知问题上进行微调的模型会遇到提示敏感度降低的问题，并且可能会破坏一些理想情况下会导致更好生成的指令。

我们根据指令影响响应的因素将其分为因果因素和非因果因素。因果因素很重要，因为它们直接影响响应，而非因果因素对结果的影响很小。指令中的控制条件，例如响应的字数，是典型的因果因素。额外的指令，例如“如果输入有文件名，请给我一个参考”，是非因果因素，因为它可能不会改变答案。在训练过程中，LLMs可能会忽略这种类型的指令，因为它并不总是直接有助于答案。但是，非因果因素对问题同样重要。例如，一本书的介绍可能与主要内容无关，导致读者低估其价值。然而，它在增强读者对内容的理解方面起着至关重要的作用。

基于此，我们进一步提出了提示敏感训练，旨在引导模型完成提示中的所有指令。提示敏感训练包含两个子任务：添加因果指令和指令审查。我们使用GPT-4来合成所需的数据并将其提炼到目标模型中。
- 因果指令合成：通过指示GPT-4生成保证会影响最终响应的控制要求，我们获得了额外的因果指令。然后，为了提高模型的指令敏感度，我们随机将一个因果指令插入到原始的QA指令中。例如，限制输出的字数、时态或格式。然后，我们提示GPT-4以新的指令进行响应，并记录对话数据以微调较小的模型。
- 指令审查合成：指令审查模块旨在使用模型本身来验证所有指令是否已完成。模型将递归地重新生成，直到它通过利用在附录A.4中记录的自定义提示获得完美的答案。指令审查的过程在算法1中进行了说明。
实验结果

我们对主流大型语言模型进行了评估，包括Llama2-Chat-7B、GPT-4 Turbo、GPT-3.5 Turbo、Vicuna-7B v1.5和Self-RAG-7B。

实验结果表明，大多数大型语言模型难以准确识别未知问题，准确率仅为50%左右。然而，GPT-4是一个显著的例外，它以显著的优势超过了第二好的模型Llama2，领先了25.3%。Llama2在剩余的模型中排名最高，甚至超过了GPT-3.5，尽管后者具有更多参数。但是，GPT-4与其他模型之间仍然存在相当大的性能差距。正在进行的实验旨在调查造成这种差异的原因。

我们微调的模型在不确定性识别测试中与GPT-4的表现相当，并且在响应上下文中显示出比基线模型提高了25.9%。然而，尽管在未知问题（Accunknown）方面超过了GPT-4，但这种对不确定性的意识增强导致模型的原始问答能力下降。在HotpotQA数据集上进行进一步的微调导致模型在遵循指令方面变得不太可靠，有时会忽略其知识局限性。在测试的模型中，不确定性敏感微调模型排名最高，获得了85.8的F1分数，比GPT-4高出4.2分，比基线高出18.6分。这种令人印象深刻的性能归因于模型在回答问题和承认其缺乏提供答案的必要信息之间的理想平衡。它在未知问题上实现了93.0%的准确率，在所有主流LLMs中最高，同时在已知问题上保持了79.7%的准确率。此外，该模型有效地整合了新信息，而不会影响其现有的知识库，完美地保留了其从认知微调中学到的知识。

结论

在这篇论文中，我们探讨了大型语言模型应用中的一个常见问题，即提示中上下文不足会导致生成看似合理但错误的响应，这种现象被称为幻觉。首先，我们的研究表明，大型语言模型通常无法识别何时缺乏足够的信息来准确地响应查询。我们主要将这个问题归因于模型缺乏识别何时提供的上下文不足以回答所提出的查询的能力。其次，在使用没有特定答案的问题进行训练过程中，具有答案的问题的性能下降了。为了解决这些问题，我们提出了一种名为“不确定性敏感训练”的新训练方法。这是一个两阶段的训练框架。在第一阶段，我们引导LLMs拒绝未知问题。在第二阶段，我们通过整合设计的因果指令来恢复问答任务中下降的性能。这种方法显著增强了Llama2-chat-7B模型处理查询的可靠性，减少了幻觉的发生。我们的方法与以前的工作不同，它更直接地关注通过有针对性的微调来改进模型的响应行为，从而提高其在实际场景中的性能。通过开源这个框架和模型，我们相信它将为自动合成指令数据集指明一个新的方向，这个方向不仅关注数据的多样性，还关注训练过程中的幻觉减少。

参考文献
- Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., et al. (2020). Language models are few-shot learners. arXiv preprint arXiv:2005.14165.
- Touvron, J., Lachaux, M., Lample, G., Bordes, A., Aziza, S., Jaffre, J., Seddah, D., et al. (2023). Llama 2: Open and efficient foundation models. arXiv preprint arXiv:2307.09288.
- OpenAI. (2023). GPT-4 technical report. Retrieved from https://openai.com/research/gpt-4.
- Stelmakh, D., Khot, S., Talmor, A., and Goldberg, Y. (2022). ASQA: A dataset of ambiguous questions and answers. arXiv preprint arXiv:2204.09202.
- Yang, Z., Yih, W., He, X., Liu, J., and Zhou, M. (2018). HotpotQA: A dataset for diverse, challenging, and informative question answering. arXiv preprint arXiv:1809.09628.
- Zheng, Z., Yuan, L., Zhang, Y., Li, Y., Zhang, Y., Zhang, B., and Zhou, M. (2024a). Vicuna: An open-source chatbot trained on a massive dataset of human-chat conversations. arXiv preprint arXiv:2306.01575.
- Zheng, Z., Yuan, L., Zhang, Y., Li, Y., and Zhou, M. (2024b). LLaMA-Factory: A framework for efficient and scalable fine-tuning of large language models. arXiv preprint arXiv:2306.01575.
- Hu, J., Shen, L., Zhang, Z., He, X., Liu, Z., and Sun, M. (2021). LoRA: Low-rank adaptation of large language models. arXiv preprint arXiv:2106.09685.
- Zhou, B., Li, Y., and Yang, Y. (2023). Towards trustworthy large language models: A comprehensive survey. arXiv preprint arXiv:2303.12145.
Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决大型语言模型（LLMs）在处理问题时面临的”幻觉”（hallucinations）问题。幻觉是指LLMs生成的回答要么事实上错误，要么毫无意义。这个问题的一个潜在原因是模型缺乏相关知识或上下文。论文指出，现有的指令数据集设计倾向于鼓励具体的答案，导致LLMs难以承认它们知识的局限性，即难以回答”我不知道”。

为了改善LLMs识别其知识边界的能力，论文提出了一种新颖的方法，称为”不确定性敏感调整”（uncertainty-sensitive tuning）。这种方法包括两个阶段的训练，旨在不确定性识别和提示敏感激活。第一阶段是引导LLM拒绝未知问题，在第二阶段，通过整合设计的因果性指令，恢复QA任务中降低的性能。通过这种方法，论文的目标是提高模型识别不确定性领域的能力。

具体来说，论文的主要贡献包括：
1. 研究了为什么LLMs倾向于忽略数据集中的重要指令，并将此归因于对不确定性的敏感性不足。
2. 构建了一个新颖的数据集，用于不确定性意识评估，帮助评估模型对知识差距的认识。
3. 提出了一种新颖的两阶段微调范式，指导模型拒绝没有足够上下文的问题，减少在这种情况下的幻觉概率。
实验结果表明，该方法显著提高了Llama2-chat-7B模型的性能，特别是在处理涉及知识差距的问题方面，与原始模型相比提高了34.7%。此外，该方法的表现超过了GPT-4，整体性能提高了9.4%。

Q: 有哪些相关研究？

A: 论文中提到了多个与大型语言模型（LLMs）幻觉问题和指令数据集训练相关的研究。以下是一些主要的相关研究：
1. 幻觉与不确定性: 一些研究关注于通过测量和缓解不确定性来识别幻觉。例如，Lu et al. (2023) 提出了一种功能性的不确定性测量方法，并得出不确定性与准确性之间存在相关性的结论。CAD (Shi et al., 2023) 提出了一种对比方法来测量生成知识的不确定性，通过在提供上下文时增加输出概率来限制模型。
2. LLMs与外部知识: 研究表明，在提示中整合最新的相关知识可以有效地减少与事实冲突的幻觉。例如，Zhou et al. (2023) 提出了多种格式的提示整合附加知识。
3. 指令数据集训练: 为了提高LLMs的性能，有研究提出了合成指令数据的方法。例如，Self-Instruct (Wang et al., 2023) 提出了使用ChatGPT生成各种指令的方法。
4. 特定任务的LLMs训练: 一些研究专注于通过提供特定任务的训练数据来提高LLMs的性能。例如，PURR (Chen et al., 2023) 在生成中添加了一个LLM去噪器，用于检测生成中的幻觉。
5. 自我反思的LLMs: Self-RAG (Asai et al., 2023) 采用了类似的方法，使用LLMs筛选提供的上下文，避免无关信息的干扰。
6. R-Tuning: R-Tuning (Zhang et al., 2024) 指导LLMs拒绝未知问题，但主要关注拒绝领域外问题。
7. 其他相关工作: 论文还提到了其他一些研究，如Kang和Hashimoto (2020) 关于改进自然语言生成的研究，以及Lewis等人 (2020) 关于检索增强生成的研究。
这些研究为理解LLMs在处理未知问题时的局限性提供了背景，并为提出新的训练方法提供了理论基础。论文通过综合这些研究成果，提出了一种新的两阶段训练方法，旨在提高LLMs在面对不确定性时的表现。

Q: 论文如何解决这个问题？

A: 论文通过提出一种名为“不确定性敏感调整”（uncertainty-sensitive tuning）的方法来解决LLMs在处理未知问题时的幻觉问题。这个方法包括以下关键步骤：
1. 问题定义：首先定义研究问题，将任务设置为开放书籍问答任务，模型需要根据任务指令、具体问题和给定上下文生成答案。
2. 初步探索未知问题：通过在超出提供上下文的问题上对Llama2-Chat-7B模型进行初步微调，发现模型在处理未知问题时存在两个主要弱点：无法准确拒绝未知问题，以及在问答任务中性能下降。
3. 两阶段训练策略：
  - 第一阶段：不确定性识别调整（Uncertainty-Recognition Tuning）：将任务视为二元分类问题，训练模型识别是否有足够的上下文信息来回答问题。这个阶段的目的是让模型学会在信息不足时拒绝回答。
  - 第二阶段：提示敏感调整（Prompt-Sensitive Tuning）：在第一阶段训练后，模型可能对未知问题过于敏感，导致在回答具体问题时性能下降。这个阶段包括因果性指令合成和指令审查两个子任务，目的是恢复模型在问答任务中的性能，同时提高模型对指令的敏感性。
4. 因果性指令合成：使用GPT-4生成影响最终回答的控制要求，然后将这些因果性指令随机插入原始问答指令中，以提高模型对指令的敏感性。
5. 指令审查合成：使用模型自身来验证所有指令是否完成，通过自定义提示递归地重新生成答案，直到得到完美答案。
6. 实验验证：通过构建新的指令微调数据集和评估数据集，对提出的方法进行实验验证。实验结果表明，不确定性敏感调整方法显著提高了Llama2-chat-7B模型在处理涉及知识差距问题时的性能，并在整体性能上超过了GPT-4。
通过这种方法，论文旨在提高模型识别不确定性领域的能力，并在实际应用场景中提高其性能。同时，论文还将框架和模型开源，以促进自动合成指令数据集的新方向，这不仅关注数据的多样性，还减少了训练过程中的幻觉。

Q: 论文做了哪些实验？

A: 论文中进行了一系列的实验来评估和验证所提出的不确定性敏感调整方法。以下是实验的主要步骤和内容：
1. 数据集构建：
  - 构建了两个新的指令微调数据集，分别用于二元不确定性识别调整和提示敏感微调。
  - 利用ASQA数据集生成未知问题，通过将问题与不完全相关的上下文配对，引入处理不确定性的挑战。
  - 基于HotpotQA数据集，生成了包含额外因果指令的提示敏感微调数据集。
2. 实验设置：
  - 在多个主流大型语言模型（LLMs）上进行实验，包括Llama2-Chat-7B、GPT-4 Turbo、GPT-3.5 Turbo、Vicuna-7B v1.5和Self-RAG-7B。
  - 使用Lora方法在单个GPU上进行微调，设置特定的训练参数。
3. 评估指标：
  - 使用Accknown表示模型在具体问题上回答的准确性。
  - 使用Accunknown表示模型在未知问题上回答的准确性。
4. 结果：
  - 展示了不同模型在QA不确定性识别评估和后缀不确定性识别评估中的表现。
  - 通过实验发现，大多数LLMs在准确识别未知问题上存在困难，但GPT-4在这些任务中表现突出。
5. 消融研究：
  - 为了量化不确定性识别调整、HotpotQA调整和提示敏感调整的效果，构建了三个额外的变体进行消融实验。
  - 分析了模型在不同训练数据集下的表现，探讨了模型在拒绝未知问题时性能下降的原因。
6. 性能提升分析：
  - 通过不确定性识别调整，模型在未知问题上的回答准确性显著提高。
  - 提示敏感调整有助于恢复模型在其他问题上的性能，解决了过调优导致的提示敏感性降低问题。
7. 结论：
  - 实验结果表明，不确定性敏感调整方法显著提高了Llama2-chat-7B模型处理查询的可靠性，减少了幻觉的发生。
这些实验不仅验证了所提出方法的有效性，还展示了其在不同模型和数据集上的应用潜力。通过开源框架和模型，论文鼓励进一步的研究和开发，以提高LLMs在实际应用中的性能和可靠性。

Q: 有什么可以进一步探索的点？

A: 论文在最后部分提出了两个主要的局限性，并指出了未来可以进一步探索的方向：
1. 长尾问题（Long-tail Problem）：
  - 当使用含有有限数量未知问题的新型数据集进行调整时，大型语言模型（LLMs）可能会遇到长尾问题。这意味着模型可能在处理大量不常见的问题类型时表现不佳。
  - 为了解决这个问题，未来的工作可以探索更针对性的微调策略，以适应特定类型的数据集。
2. 预训练阶段的参数知识（Parametric Knowledge）：
  - 论文指出，他们没有深入探讨或分析Llama2在初始预训练阶段学到的参数知识。微调数据集可能与Llama2的预训练数据重叠。
  - 未来的工作可以探索现有方法，通过监测内部参数来测量模型不确定性（例如，Lu et al., 2023的工作），从而深入了解模型的知识差距和长尾弱点。
此外，以下是一些其他可能的研究方向：
- 模型不确定性量化：研究如何更精确地量化模型在不同输入上的不确定性，以便更好地理解其知识限制。
- 针对性微调策略：开发新的微调方法，使微调后的LLM能够更好地处理特定类型的查询或任务。
- 减少数据集偏差：研究如何构建或选择数据集，以减少潜在的偏差，并提高模型的泛化能力。
- 提高模型的自我认知能力：探索如何让模型更好地理解自己的知识范围，以及在何时应该回答“我不知道”。
- 多模态学习：考虑将视觉、声音等多种模态的数据整合到训练中，以提高模型对复杂问题的理解能力。
- 模型鲁棒性：研究如何提高模型在面对错误信息或故意误导时的鲁棒性。
- 实时应用和反馈循环：探索模型在实时应用中的性能，并根据用户反馈进行动态调整。
- 伦理和可解释性：研究如何在提高性能的同时，确保模型的决策过程是透明和可解释的，以及符合伦理标准。
这些方向可以帮助研究者们进一步提高LLMs的性能，增强其在各种复杂环境中的可靠性和实用性。

Q: 总结一下论文的主要内容

A: 这篇论文的核心内容是提出并验证了一种名为“不确定性敏感调整”（uncertainty-sensitive tuning）的方法，旨在改善大型语言模型（LLMs）在面对未知问题时的应对能力，减少幻觉现象。以下是论文的主要内容概述：
1. 问题识别：论文首先指出LLMs在处理问题时，如果缺乏相关知识或上下文，可能会产生幻觉，即生成事实错误或无意义的回答。
2. 现有挑战：现有的指令数据集设计倾向于鼓励具体答案，导致LLMs难以在知识不足时承认“我不知道”。
3. 方法提出：为了解决这一问题，论文提出了不确定性敏感调整方法，这是一个包含两个阶段训练的框架：
  - 第一阶段（不确定性识别调整）：引导LLM拒绝未知问题，即当问题超出其知识范围时。
  - 第二阶段（提示敏感调整）：恢复模型在问答任务中的性能，通过整合设计的因果性指令。
4. 实验设计：论文构建了新的数据集，进行了实验验证，并与其他主流LLMs进行了比较。
5. 实验结果：实验结果显示，不确定性敏感调整方法显著提高了Llama2-chat-7B模型的性能，特别是在处理涉及知识差距的问题方面，与原始模型相比提高了34.7%，并且整体性能超过了GPT-4。
6. 贡献总结：
  - 研究了LLMs忽略重要指令的原因。
  - 构建了用于评估模型对知识差距认识的新数据集。
  - 提出了新的两阶段微调范式，减少了幻觉发生的概率。
7. 未来工作：论文提出了未来研究的方向，包括解决长尾问题和深入分析模型在预训练阶段学到的参数知识。
8. 伦理声明：论文指出，虽然使用了公共数据集构建基准和数据集，可能存在固有偏见，但所采用的技术没有引入超出数据呈现的额外偏见。
通过这些研究和方法，论文为提高LLMs的可靠性和减少幻觉提供了有价值的见解，并为未来的研究和应用奠定了基础。
2024 年 6 月 18 日
测试LLMs长上下文推理极限：BABILong基准简介
近年来，大型语言模型（LLMs）的输入上下文大小显著增加。然而，现有的评估方法并未与时俱进，未能全面评估模型处理长上下文的效率。为弥补这一差距，我们引入了BABILong基准，旨在测试语言模型在处理分布在超长文档中的事实推理能力。BABILong包括一套多样化的20个推理任务，如事实链、简单归纳、演绎、计数和处理列表/集合。这些任务本身就具有挑战性，当所需的事实分散在长自然文本中时，更是难上加难。我们的评估显示，流行的LLMs只能有效利用10-20%的上下文，其性能随着推理复杂性的增加急剧下降。

引言

如今，LLMs和神经网络架构不断发展，尤其是在处理更长上下文方面取得了显著进步（OpenAI, 2023；Reid et al., 2024；Anthropic, 2024）。这些模型根据丰富的上下文信息生成文本的能力非常重要。例如，较长的上下文为模型提供了更多信息，以便其生成更准确、上下文相关且最新的响应。此外，长上下文能力可以通过提供更多的上下文示例、指令或强化学习中的示例轨迹来增强上下文学习（Chevalier et al., 2023；Agarwal et al., 2024；Lee et al., 2024）。

尽管这些模型能力有所进步，用于评估它们的基准测试却未能跟上。例如，目前的基准测试，如Longbench（Bai et al., 2023）和L-Eval（An et al., 2023）仅扩展到40,000个标记，而模型则能够处理数十万甚至数百万个标记。

BABILong基准概述

为了测试LLMs在处理极长文档中的推理能力，我们介绍了BABILong基准。BABILong包括一组多样化的20个推理任务，如事实链、简单归纳、演绎、计数和处理列表/集合，这些任务是任何旨在与人类对话的系统的前提（Weston et al., 2016）。我们使用PG19语料库中的书籍作为长自然文档的来源（Rae et al., 2020）。通过这种方式，BABILong可以构建几乎任意长度的任务，以适应新、更强大的模型的评估，并以可扩展和可控的方式进行。我们提供了预定义长度的集合，最长可达100万个标记，并在样本上评估模型，长度可达1100万个标记。

主要贡献
1. 我们引入了BABILong，一个新的可扩展生成多任务基准，用于评估NLP模型在处理任意长文档中的性能。
2. 我们评估了20多个近期长输入语言模型，涵盖各种大小、架构和上下文扩展方法。
3. 我们发现流行的LLMs只能有效利用10-20%的上下文，且性能随着推理复杂性的增加急剧下降。检索增强生成方法未能表现出良好成绩，但针对特定任务的微调有所帮助。
4. 我们展示了使用循环记忆Transformer在长达1100万个标记的输入文本上成功进行域内单事实问答，设定了单个模型处理序列长度的新纪录，扩展了神经网络的已知能力。
评估结果

有效上下文大小的评价

关于长上下文模型性能的一个重要问题是它们如何有效地利用输入上下文。理想情况下，模型应保持一致的高性能，而不受输入大小的影响。我们的基准测试表明，目前的LLMs并未有效利用其全部上下文。仅有15个测试模型中的24个能够在基线设置下正确回答85%以上的问题。

检索增强生成方法的效果

检索增强生成（RAG）是一种流行的语言模型解决方案，用于处理大量文本。我们实验了两种选项：按512个标记的块进行检索（RAG-C）和按句子进行检索（RAG-S）。实验结果表明，使用句子块的检索性能优于512标记段。

微调模型在BABILong上的表现

我们对GPT-3.5-Turbo、Mistral-7B-Instruct-v0.2、RMT（使用GPT-2（137M）为骨干）和Mamba（130M）模型进行了微调实验。微调结果显示，RMT在处理长上下文时表现出色，能够处理长度达1100万个标记的序列。

结论

本文介绍了BABILong，一个多样且可扩展的基准，旨在弥补现有基准在评估LLMs处理长上下文任务能力方面的不足。我们的实验表明，BABILong提供了一个更具代表性的长上下文推理评估框架。我们的研究结果揭示了流行的开源LLMs及GPT-4和RAG在有效长上下文利用方面的局限性。微调实验显示，即使是相对较小的模型如RMT（使用GPT-2（137M））和Mamba（130M）也能解决BABILong任务。

参考文献
- OpenAI. (2023).
- Reid et al. (2024).
- Anthropic. (2024).
- Chevalier et al. (2023).
- Agarwal et al. (2024).
- Lee et al. (2024).
- Bai et al. (2023).
- An et al. (2023).
- Rae et al. (2020).
- Weston et al. (2016).
如需更多详细信息和数据代码，请访问BABILong GitHub。

Q: 这篇论文试图解决什么问题？

A: 这篇论文《BABILong: Testing the Limits of LLMs with Long Context Reasoning-in-a-Haystack》试图解决的问题是，现有的大型语言模型（LLMs）在处理长文本上下文方面的能力虽然在不断增强，但目前的评估方法并没有跟上这一发展步伐，无法全面评估这些模型处理长上下文的效率。具体来说，论文指出以下几个问题：
1. 上下文大小的增加：近年来，LLMs能够处理的输入上下文大小显著增加，但现有的评估基准（benchmarks）并没有相应扩展，仍然只评估到40,000个token左右，而模型能力已经达到数十万甚至更多token。
2. 评估方法的不足：当前的评估方法没有充分考虑到模型在处理分散在长文本中的事实时的推理能力，例如事实链（fact chaining）、简单归纳（simple induction）、演绎（deduction）、计数（counting）以及处理列表/集合（handling lists/sets）等。
3. 现有基准的局限性：现有的一些基准测试，如Longbench和L-Eval，虽然在一定程度上评估了模型的长上下文处理能力，但它们在评估模型在极端长文本中的推理能力方面存在局限。
为了解决这些问题，论文引入了一个新的基准测试BABILong，旨在测试语言模型在极长文档中跨事实推理的能力。BABILong包含了20个不同的推理任务，并且可以扩展到任意长度，以支持评估新一代具有增强能力的模型。

Q: 有哪些相关研究？

A: 论文中提到了多个与长上下文处理和评估大型语言模型（LLMs）相关的研究工作。以下是一些主要的相关研究：
1. Long Range Arena (LRA): 由Tay等人于2021年提出，是长上下文建模的先驱基准之一，包含从1到16千个token的不同长度的任务。
2. LongBench: 由Bai等人于2023年提出，包含6种真实和合成问题，涵盖摘要、多文档问答、代码完成等，样本平均长度为6k和13k token，最大长度为40k token。
3. Scrolls 和 ZeroSCROLLS: 由Shaham等人于2022年和2023年提出，包含问答、分类、摘要任务，平均长度从1.7k到49.3k token。
4. L-Eval: 由An等人于2023年提出，结合了20个较小的长序列数据集，并添加了4个新注释任务，涵盖多种问题风格和领域。
5. InfinityBench: 由Zhang等人于2024年提出，包含问答和摘要任务，最大样本长度为636K token。
6. RULER: 由Hsieh等人于2024年提出，是一个长上下文基准，采用“针在 haystack 中”的概念，引入了多跳追踪和聚合等新任务类别。
7. MMLU: Hendrycks等人于2020年提出，是一个多任务语言理解基准，衡量LLMs在各种知识领域的表现。
8. Recurrent Memory Transformer (RMT): 由Bulatov等人于2022年和2024年提出，是一种通过循环记忆机制处理长上下文的方法。
9. Mamba: 由Gu和Dao于2023年提出，是一种线性时间序列建模方法，使用选择性状态空间。
10. GPT-4: OpenAI于2023年提出的大型语言模型，具有处理长上下文的能力。
11. Llama-3: AI@Meta于2024年提出的模型，具有长上下文处理能力。
12. AutoCompressor: Chevalier等人于2023年提出，结合了RMT方法和从外部语料库检索。
这些研究工作为评估和提高LLMs在长上下文处理方面的能力提供了不同的方法和基准。论文通过与这些相关工作的比较，展示了BABILong基准在评估长上下文推理方面的先进性和挑战性。

Q: 论文如何解决这个问题？

A: 论文通过以下几个关键步骤来解决现有评估方法无法全面测试大型语言模型（LLMs）处理长上下文的问题：
1. 引入BABILong基准：论文提出了一个新的基准测试BABILong，它专门设计用来测试语言模型在极长文档中跨事实推理的能力。
2. 多样化的推理任务：BABILong包含了20个不同的推理任务，这些任务包括事实链、简单归纳、演绎、计数和处理列表/集合等，这些任务都是根据人类与机器对话所需的基本推理技能设计的。
3. 使用长自然文档：BABILong使用PG19语料库中的书籍作为长自然文档的来源，这些文档的长度和复杂性为评估模型提供了挑战。
4. 可扩展性：BABILong允许构建几乎任意长度的任务，以适应评估新的、更强大的模型，提供了预定义的长度集，并且可以扩展到1百万token的长度。
5. 评估现有模型：论文评估了多个流行的LLMs，包括不同大小、架构和上下文扩展方法的模型，以测试它们在BABILong上的性能。
6. 性能分析：通过分析模型在不同任务和上下文长度下的表现，论文揭示了现有模型在利用上下文信息时的局限性，发现它们通常只有效利用了10-20%的上下文。
7. 探索替代方法：论文探讨了除了在上下文中推理之外的其他方法，例如检索增强生成（Retrieval-Augmented Generation）方法和循环记忆变换器（Recurrent Memory Transformers, RMT），并评估了它们在BABILong任务上的表现。
8. 提供资源：论文提供了BABILong基准数据和评估代码，以便研究社区可以访问和使用这些资源来评估自己的模型。
通过这些步骤，论文不仅提出了一个全面的评估框架，还通过实验结果揭示了现有模型在长上下文处理方面的不足，并为未来的模型开发和评估提供了指导。

Q: 论文做了哪些实验？

A: 论文中进行了一系列实验来评估和比较不同大型语言模型（LLMs）在处理长上下文方面的能力。以下是论文中提到的主要实验：
1. BABILong基准测试：作者创建了BABILong基准，包含20个推理任务，旨在测试语言模型在极长文档中跨事实推理的能力。
2. 模型评估：作者评估了20多个最近的长输入语言模型，这些模型具有不同的大小、架构和上下文扩展方法，包括流行的LLMs和一些为长上下文处理特别设计的方法。
3. 有效上下文大小评估：通过问答任务（QA1-QA3），研究了LLMs如何利用可用上下文。实验结果表明，当前的LLMs并没有有效地使用其全部上下文。
4. 检索增强生成（RAG）方法评估：作者测试了RAG方法在BABILong上的表现，发现它在处理长上下文任务时表现不佳。
5. 模型微调（Fine-tuning）：对GPT-3.5-Turbo、Mistral-7B-Instruct-v0.2、RMT（带有GPT-2（137M）后端）和Mamba（130M）模型进行了微调实验，以评估微调对模型性能的影响。
6. 不同上下文长度的性能比较：作者比较了模型在不同上下文长度（从0K到10M tokens）的性能，以分析模型在处理不同长度上下文时的效率。
7. 与其他基准的比较：作者将BABILong的结果与其他基准（如MMLU和RULER）进行了比较，以评估BABILong在捕捉模型行为差异方面的能力。
8. RMT性能分析：对RMT模型进行了详细的性能分析，包括在不同任务上的表现和在超出训练大小的长序列上的性能。
9. RAG与微调模型的比较：作者比较了RAG方法与微调模型在BABILong任务上的表现，发现微调可以显著提高模型在长上下文任务中的性能。
10. 不同事实位置的性能分析：作者分析了在QA1任务中，当所有事实位于输入查询的同一位置时，模型的性能如何变化。
这些实验提供了对当前LLMs在长上下文处理能力方面的深入理解，并揭示了它们在这一领域的局限性。通过这些实验，作者能够评估和比较不同模型和方法在处理长文本时的效率和准确性。

Q: 有什么可以进一步探索的点？

A: 论文《BABILong: Testing the Limits of LLMs with Long Context Reasoning-in-a-Haystack》提出了对大型语言模型（LLMs）在长上下文推理方面的评估方法，并指出了现有模型的一些局限性。以下是一些可以进一步探索的点：
1. 改进上下文利用效率：研究如何提高模型对长上下文的有效利用率，目前模型仅利用了10-20%的上下文信息。
2. 优化检索增强生成（RAG）方法：探索如何改进RAG方法，使其更好地处理长上下文和多跳推理任务。
3. 扩展BABILong基准：考虑将BABILong应用于其他语言，或者增加更多类型的推理任务，以测试模型在更广泛场景下的表现。
4. 微调策略的改进：研究不同的微调策略，以提高模型在特定任务上的性能，同时保持对其他任务的泛化能力。
5. 模型架构的创新：开发新的模型架构，特别是那些能够更有效地处理长上下文信息的架构。
6. 存储和计算效率的平衡：研究如何在保持模型性能的同时，优化存储和计算资源的使用，特别是在处理极长序列时。
7. 减少数据泄露：探索新的方法来生成基准数据，以确保训练和测试数据之间的隔离，避免数据泄露问题。
8. 提高模型的可解释性：研究如何提高模型在处理长上下文任务时的决策过程的透明度和可解释性。
9. 跨领域应用：探索BABILong基准在不同领域（如医疗、法律、金融等）的应用，以及如何针对这些领域定制或改进任务。
10. 模型鲁棒性研究：研究模型在面对错误信息、误导性事实或噪声数据时的鲁棒性，并探索提高鲁棒性的方法。
11. 实时应用的可行性：考虑模型在实时应用场景中的可行性，例如在对话系统或在线问答环境中处理长上下文。
12. 伦理和社会影响：研究LLMs在处理长上下文时可能带来的伦理和社会影响，例如偏见、隐私和信息安全问题。
这些探索点可以帮助研究者更深入地理解LLMs在长上下文处理方面的能力，并推动这一领域的进一步发展。

Q: 总结一下论文的主要内容

A: 论文《BABILong: Testing the Limits of LLMs with Long Context Reasoning-in-a-Haystack》主要内容包括以下几个方面：
1. 问题识别：指出了现有大型语言模型（LLMs）在处理长上下文方面的能力虽有显著提升，但现有的评估方法并未跟上这一进步，无法全面测试模型在长文本上下文中的推理能力。
2. BABILong基准介绍：为了填补这一空白，作者提出了BABILong基准测试，这是一个设计用来评估语言模型在极长文档中进行跨事实推理能力的工具。
3. 任务设计：BABILong包含20个不同的推理任务，覆盖了事实链、简单归纳、演绎、计数和处理列表/集合等多种推理类型。
4. 评估方法：论文描述了如何使用长自然文档和背景文本来构造任务，并通过增加无关文本的长度来调整任务难度，以此来评估模型在不同上下文长度下的性能。
5. 实验结果：通过一系列实验，作者发现流行的LLMs在利用上下文信息方面存在局限性，通常只有效利用了10-20%的上下文，并且随着任务复杂性的增加，性能急剧下降。
6. 替代方法评估：论文还评估了检索增强生成（RAG）方法和循环记忆变换器（RMT）等上下文扩展方法在BABILong任务上的表现。
7. 性能分析：作者对不同模型在BABILong上的表现进行了深入分析，揭示了它们在长上下文处理能力方面的不足，并与其他基准测试结果进行了比较。
8. 资源提供：论文提供了BABILong基准数据和评估代码的访问，以便研究社区可以使用这些资源来评估自己的模型。
9. 结论与展望：作者总结了BABILong基准的主要贡献，并指出了现有模型在长上下文处理方面的局限性，同时对未来的研究方向提出了建议。
10. 相关工作：论文还讨论了与长上下文处理相关的其他研究工作，包括现有的基准测试和数据集，以及它们与BABILong的比较。
总的来说，这篇论文通过提出BABILong基准测试，为评估和推动LLMs在长上下文推理方面的发展提供了一个有力的工具和评估框架。
2024 年 6 月 18 日

标签： AGI

大型语言模型的“不知道”：一种新的不确定性敏感训练方法

LLMs 为什么难以承认“不知道”？

不确定性敏感训练：两阶段训练方法

实验结果

结论

参考文献

测试LLMs长上下文推理极限：BABILong基准简介

引言

BABILong基准概述

主要贡献

评估结果

有效上下文大小的评价

检索增强生成方法的效果

微调模型在BABILong上的表现

结论

参考文献