标签: AGI

  • MMLU-Pro:更强大、更具挑战性的多任务语言理解基准

    引言:人工智能理解能力的新标杆

    近年来,大型语言模型(LLM)的进步彻底改变了自然语言处理(NLP)领域。GPT-4、Gemini 和 Claude 等最先进的模型正在不断突破人工智能在语言理解和推理方面的能力边界。为了实现专家级人工智能的目标,即在各种任务中达到或超过 10% 的技能娴熟的成年人的表现,我们需要不断评估这些模型在广泛任务上的表现。

    目前,有多种流行的基准测试用于衡量这种通用智能,例如侧重于考试题的 AGIEval、侧重于科学问题的 ARC、侧重于解决困难的合成任务的 BBH 以及涵盖 STEM、人文、社会科学等 57 个科目的考试题的 MMLU。

    MMLU 的局限性:从饱和到不稳定

    MMLU 因其广泛的覆盖面和高质量而成为评估 LLM 的事实标准。然而,当前 LLM 的快速发展已迅速导致 MMLU 的性能饱和。自 2023 年 3 月 GPT-4 达到 86.4% 的准确率以来,该基准测试一直没有取得任何重大进展。大多数最新的前沿模型,如 GPT-4-Turbo、Gemini-1.5-Pro、Claude 和 LLaMA-3-400B,其准确率都稳定在 86% 到 87% 之间。最近发布的 GPT-4o 在 MATH 和 Chatbot Arena 上取得了显著的性能提升(10% 以上),但在 MMLU 上仅获得了 1% 的提升,达到 87.4%。

    除了饱和问题外,MMLU 的性能还因其对提示和评分函数的高度敏感而闻名,这导致排行榜上的排名发生重大变化。我们推测,这些问题是由以下原因造成的:

    • 选项数量少:MMLU 中的问题只有三个干扰选项,这使得 LLM 可以在没有真正理解问题的情况下利用捷径得出答案,从而导致对 LLM 真实性能的高估和一定程度的不稳定性。
    • 推理难度低:MMLU 中的问题大多是知识驱动的,不需要太多的推理,尤其是在 STEM 科目中,这降低了其难度。事实上,大多数模型在没有思维链的情况下,通过“直接”答案预测就能获得更好的性能。
    • 数据噪声:MMLU 中有一部分问题是无法回答的,或者标注有误,这导致了性能上限较低,而前沿模型已经达到了这个上限。

    MMLU-Pro:更具挑战性、更具辨别力、更可靠

    为了解决这些问题,我们引入了 MMLU-Pro:一个全面的基准测试,旨在评估高级语言模型在多学科语言理解和推理方面的能力。MMLU-Pro 涵盖了 14 个不同的领域,包括数学、物理、化学、法律、工程、心理学和健康,包含超过 12,000 个问题。

    MMLU-Pro 与 MMLU 的区别在于:

    • 选项数量增加:MMLU-Pro 有十个选项,比 MMLU 多 3 倍,这大大降低了随机猜对答案的概率,从而提高了基准测试的难度和鲁棒性。
    • 推理难度提高:MMLU-Pro 增加了具有挑战性的大学水平考试题的比例,这些问题要求 LLM 在不同领域进行深思熟虑的推理才能得出最终答案。
    • 数据质量更高:我们整合了两轮专家评审,以减少数据集的噪声。第一轮是基于专家验证,第二轮是利用最先进的 LLM 来识别潜在的错误,并聘请标注员进行更有针对性的验证。

    实验结果:CoT 的必要性和 MMLU-Pro 的有效性

    我们在 MMLU-Pro 上评估了 50 多个 LLM,包括开源和闭源模型,如 GPT-4o、Claude-3-Opus、Gemini、LLaMA-3 和 Phi-3。我们的主要发现总结如下:

    • MMLU-Pro 极具挑战性:领先的模型 GPT-4o 仅获得了 72.6% 的准确率,GPT-4-Turbo 达到 63.7%,这表明还有很大的改进空间。
    • MMLU-Pro 更具辨别力:例如,GPT-4o 和 GPT-4-Turbo 在 MMLU 上的差距为 1%,而在 MMLU-Pro 上则为 9%。这种辨别性使得 MMLU-Pro 成为一个更合适的基准测试。
    • 开源模型的进步:Llama-3-70B-Instruct 和 DeepSeek-V2-Chat 等先进的开源模型,虽然在性能上还无法与 GPT-4o 和 Claude-3-Opus 等领先的闭源模型相媲美,但已经接近 Claude-3-Sonnet 的水平。
    • CoT 的必要性:MMLU-Pro 需要思维链(CoT)才能取得良好的效果。例如,CoT 可以将 GPT-4o 的性能提高 19%。相比之下,CoT 实际上会损害模型在 MMLU 上的表现。这反映了在 MMLU-Pro 上进行深思熟虑的推理的必要性,而这在知识驱动的 MMLU 问题中是不需要的。
    • 错误分析:我们对当前性能最佳的模型 GPT-4o 的 120 个错误案例进行了分析,发现 39% 的错误是由于推理过程中的缺陷,35% 是由于缺乏特定领域的专业知识,另外 12% 是由于计算错误。这些结果突出了 MMLU-Pro 基准测试的难度,并指出了需要进一步研究和模型改进的领域。

    结论:迈向更强大的 LLM 评估

    MMLU-Pro 是一个更强大、更具挑战性的多任务语言理解基准测试,它解决了 MMLU 的局限性,并为评估 LLM 的推理和知识能力设定了更高的标准。我们的实验结果表明,MMLU-Pro 在区分模型、鼓励 CoT 推理和推动 LLM 研究方面非常有效。


  • 阅读分析报告:An Information Bottleneck Perspective for Effective Noise Filtering on Retrieval-Augmented Generation

    摘要:
    《An Information Bottleneck Perspective for Effective Noise Filtering on Retrieval-Augmented Generation》这篇论文提出了一种信息瓶颈的视角,用于改善检索增强生成中的噪声过滤效果。检索增强生成将大型语言模型的能力与从广泛语料库中检索到的相关信息相结合,但在面对真实世界的嘈杂数据时会遇到挑战。最近的解决方案是训练一个过滤模块来找到相关内容,但只能实现次优的噪声压缩。本文提出将信息瓶颈理论引入检索增强生成中。我们的方法涉及通过同时最大化压缩和基准输出之间的互信息,同时最小化压缩和检索段落之间的互信息来过滤噪声。此外,我们推导出信息瓶颈的公式,以便在新的综合评估、监督微调数据的选择和强化学习奖励的构建中应用。实验结果表明,我们的方法在各种问答数据集上取得了显著的改进,不仅在答案生成的正确性方面,而且在压缩率的简洁性方面也有所提高。

    • 引言
    • 大型语言模型在自然语言理解和生成方面取得了重大进展,但仍存在一些缺点。
    • 检索增强生成是一种将外部知识源的信息整合到推理阶段的方法,可以提高文本生成的相关性、连贯性和事实准确性。
    • 相关工作
    • 信息瓶颈理论:信息瓶颈理论是一种在面对任务时使用最少信息来完成任务的理论。
    • 噪声过滤:噪声过滤是为了减轻检索证据中的噪声问题而采取的后处理技术。
    • 方法
    • 信息瓶颈原理:信息瓶颈原理通过最大化有用信息的同时最小化噪声来实现数据压缩。
    • 噪声过滤:通过最大化压缩和基准输出之间的互信息,同时最小化压缩和检索段落之间的互信息来过滤噪声。
    • 实验结果
    • 在开放领域的问答数据集上进行实验,包括自然问题(Natural Questions)、TriviaQA和HotpotQA。
    • 与强基线模型(RankGPT、LongLLMLingua和Lllama2)相比,我们的方法在所有三个数据集上都取得了显著的改进。
    • 创新点
    • 首次将信息瓶颈理论引入检索增强生成,展示了过滤的最佳效果。
    • 在评估指标、监督微调目标和强化学习奖励中应用了信息瓶颈。
    • 实验证明了我们方法在生成正确性和压缩简洁性方面的有效性。

    参考文献:
    [1] Zhu, K., Feng, X., Du, X., Gu, Y., Yu, W., Wang, H., … & Qin, B. (2024). An Information Bottleneck Perspective for Effective Noise Filtering on Retrieval-Augmented Generation.
    [2] “An Information Bottleneck Perspective for Effective Noise Filtering on Retrieval-Augmented Generation | OpenReview” (2024). OpenReview. Retrieved from [link]


    Learn more:

    1. An Information Bottleneck Perspective for Effective Noise Filtering on Retrieval-Augmented Generation
    2. An Information Bottleneck Perspective for Effective Noise Filtering on Retrieval-Augmented Generation | OpenReview
    3. BlendFilter: Advancing Retrieval-Augmented Large Language Models via Query Generation Blending and Knowledge Filtering

    Retrieval-augmented generation integrates the capabilities of large language models with relevant information retrieved from an extensive corpus, yet encounters challenges when confronted with real-world noisy data. One recent solution is to train a filter module to find relevant content but only achieve suboptimal noise compression. In this paper, we propose to introduce the information bottleneck theory into retrieval-augmented generation. Our approach involves the filtration of noise by simultaneously maximizing the mutual information between compression and ground output, while minimizing the mutual information between compression and retrieved passage. In addition, we derive the formula of information bottleneck to facilitate its application in novel comprehensive evaluations, the selection of supervised fine-tuning data, and the construction of reinforcement learning rewards. Experimental results demonstrate that our approach achieves significant improvements across various question answering datasets, not only in terms of the correctness of answer generation but also in the conciseness with 2.5\% compression rate.

    SubjectsComputation and Language ; Artificial Intelligence

    Publish: 2024-06-03 17:31:06 UTC


    Q: 这篇论文试图解决什么问题?

    A: 这篇论文试图解决的问题是如何在检索增强型生成(Retrieval-Augmented Generation, RAG)中有效地过滤噪声数据。检索增强型生成是一种结合大型语言模型和从大量语料库中检索到的相关信息的技术,但面对现实世界中的噪声数据时会遇到挑战。论文指出,现有的解决方案,如训练一个过滤模块来寻找相关内容,只能实现次优的噪声压缩。为了解决这个问题,论文提出了将信息瓶颈理论(Information Bottleneck, IB)引入到检索增强型生成中,通过同时最大化压缩与目标输出之间的互信息,以及最小化压缩与检索到的段落之间的互信息,来过滤噪声。此外,论文还推导出信息瓶颈的公式,以便于在新的综合评估中应用,选择监督式微调数据,并构建强化学习奖励。实验结果表明,这种方法在多个问答数据集上取得了显著改进,不仅提高了答案生成的正确性,还提高了压缩率,达到了2.5%的压缩率。

    Q: 有哪些相关研究?

    A: 相关研究主要集中在信息瓶颈理论和噪声过滤在检索增强型生成中的应用。以下是一些具体的相关研究领域和工作:

    1. 信息瓶颈理论 (Information Bottleneck, IB):
      • Tishby et al., 1999; Fischer, 2020 提出了信息瓶颈理论,强调在面对任务时应该使用最少量的信息来完成。
      • Shwartz-Ziv 和 LeCun, 2023 讨论了信息瓶颈理论在特定任务中的应用,如表示学习、深度学习、文档聚类、语音识别和文本摘要等。
    2. 噪声过滤 (Noise Filtering):
      • Jiang et al., 2023c; Asai et al., 2023 提出了训练模型以具备主动检索和过滤检索内容的能力。
      • Shi et al., 2023b 通过改善检索器来减少噪声。
      • Bai et al., 2023 专注于重新排列检索到的文章以过滤噪声。
      • Li, 2023 和 Jiang et al., 2023a 使用小型语言模型来衡量提示的互信息或困惑度,以找到最高分元素。
      • Xu et al., 2023; Wang et al., 2023 采用总结技术设计压缩器。
    3. 检索增强型生成 (Retrieval-Augmented Generation):
      • Lewis et al., 2020 提出了检索增强型生成的概念,通过结合检索方法和生成模型来提高文本生成的相关性、连贯性和事实准确性。
      • Gao et al., 2023 提供了检索增强型生成在大型语言模型中的应用概述。
    4. 评估指标、监督式微调和强化学习:
      • 论文还提出了将信息瓶颈理论应用于评估指标、监督式微调目标和强化学习奖励的方法,以提高检索增强型生成的性能。

    这些相关研究为论文提出的解决方案提供了理论基础和实践方法。通过综合这些研究成果,论文提出了一种新的噪声过滤方法,旨在提高检索增强型生成在处理噪声数据时的有效性。

    Q: 论文如何解决这个问题?

    A: 论文通过引入信息瓶颈理论(Information Bottleneck, IB)来解决检索增强型生成(Retrieval-Augmented Generation, RAG)中的噪声过滤问题。具体的解决方法包括以下几个步骤:

    1. 信息瓶颈理论的应用
      • 利用信息瓶颈理论优化噪声过滤器,通过同时最大化压缩表示与目标输出之间的互信息,以及最小化压缩表示与检索到的段落之间的互信息。
    2. 推导信息瓶颈公式
      • 论文为检索增强型生成推导了信息瓶颈的具体公式,这有助于在新的综合评估中应用,选择监督式微调数据,并构建强化学习奖励。
    3. 评估指标
      • 提出信息瓶颈作为评估噪声过滤性能的新指标,该指标综合考虑了压缩内容的简洁性和正确性。
    4. 监督式微调
      • 利用信息瓶颈理论来选择最佳的压缩输出作为训练数据,通过监督式学习来训练噪声过滤器。
    5. 强化学习
      • 采用直接偏好优化(Direct Preference Optimization, DPO)等强化学习方法,结合信息瓶颈理论来增强噪声过滤器的性能。
    6. 实验验证
      • 在开放域问答数据集(如Natural Questions, TRIVIAQA和HOTPOTQA)上进行实验,使用LLAMA2作为过滤和生成模型,与强基线模型进行比较,证明了所提方法的有效性。
    7. 压缩与性能的平衡
      • 通过信息瓶颈理论,实现了在压缩率和性能之间的最佳平衡,达到了显著的压缩率(2.5%)和提高的精确答案匹配率(最多3.2的改进)。

    通过这些方法,论文成功地展示了如何有效地过滤检索到的信息中的噪声,提高了生成答案的正确性和简洁性。

    Q: 论文做了哪些实验?

    A: 论文中进行了以下实验来验证所提方法的有效性:

    1. 开放域问答实验
      • 在Natural Questions (NQ)、TRIVIAQA和HOTPOTQA三个问答基准数据集上进行实验。
      • 使用LLAMA2作为基础架构的大型语言模型,并对其7B模型版本进行微调以进行噪声过滤。
    2. 压缩率与性能评估
      • 报告了压缩检索证据的单词数量,以反映压缩率。
      • 使用Exact Match (EM)、F1分数和信息瓶颈分数(IB)等指标来评估模型性能。
    3. 基线模型比较
      • 与不使用检索增强的LLAMA2-13B生成器以及使用top-1或top-5检索文档的情况进行比较。
      • 包括了RANKGPT和LONGLLMLINGUA等过滤方法,并与LLAMA-7B模型进行比较。
    4. 多跳问答实验
      • 在HOTPOTQA数据集上评估了过滤模型在处理多跳问题时的性能。
    5. 压缩简洁性消融研究
      • 通过消融实验展示了信息瓶颈理论中简洁性项的重要性。
    6. 信息瓶颈在过滤数据选择中的应用
      • 在NQ和HOTPOTQA的数据集上验证了信息瓶颈在选择训练数据时的有效性。
    7. 压缩长度与简洁性关系的研究
      • 通过一个玩具实验来验证压缩率和简洁性互信息之间的关系。
    8. 案例研究
      • 提供了来自三个数据集的示例,展示了在不同情况下检索内容的压缩结果。

    这些实验结果表明,论文提出的方法在多个数据集上显著提高了答案生成的正确性,并且在压缩率方面取得了2.5%的改进。此外,通过消融研究和案例研究,论文进一步展示了所提方法在不同情况下的应用效果和优势。

    Q: 有什么可以进一步探索的点?

    A: 尽管论文提出了一种有效的噪声过滤方法并取得了良好的实验结果,但仍有一些潜在的研究方向可以进一步探索:

    1. 改进的评估指标:虽然论文提出了信息瓶颈(IB)分数作为评估指标,但可以探索更多与特定任务相关的评估指标,以更全面地衡量模型性能。
    2. 更复杂的检索增强模型:研究更复杂的检索增强模型,以进一步提高生成文本的相关性、连贯性和事实准确性。
    3. 多模态数据集的应用:将所提方法应用于多模态数据集(如结合文本和图像的数据集),探索在这种环境下的噪声过滤问题。
    4. 跨领域适应性:研究模型在不同领域间的适应性,例如,将训练好的模型应用到新的领域时,如何快速适应并保持性能。
    5. 半监督或无监督的噪声过滤:探索在缺少标注数据的情况下,如何利用未标注数据或用户反馈来改进噪声过滤。
    6. 强化学习策略的优化:研究不同的强化学习策略,以更有效地训练噪声过滤器,提高检索增强型生成的性能。
    7. 噪声过滤的可解释性:提高噪声过滤过程的可解释性,帮助用户理解模型为何做出特定的过滤决策。
    8. 多语言和跨文化的应用:将模型扩展到多语言和跨文化场景,研究如何处理不同语言和文化背景下的噪声过滤问题。
    9. 实时应用和在线学习:研究如何将噪声过滤方法应用于实时系统,并探索在线学习策略以持续改进模型性能。
    10. 伦理和社会影响:深入研究文本生成技术的伦理和社会影响,确保生成的内容符合社会规范和伦理标准。
    11. 模型鲁棒性:提高模型对于各种噪声和异常情况的鲁棒性,确保在面对恶意输入或数据污染时的稳定性。
    12. 资源效率:优化模型的计算效率,减少资源消耗,使得模型可以部署在资源受限的环境中。

    这些探索点可以帮助研究者从不同角度改进和扩展论文中提出的方法,以适应更广泛的应用场景和需求。

    Q: 总结一下论文的主要内容

    A: 这篇论文的核心内容是提出了一种基于信息瓶颈理论的方法,用于改进检索增强型生成中的噪声过滤问题。以下是对论文主要内容的总结:

    1. 问题背景:检索增强型生成(RAG)在处理现实世界噪声数据时面临挑战,现有解决方案在噪声压缩方面表现不佳。
    2. 信息瓶颈理论:引入信息瓶颈理论来优化噪声过滤器,通过最大化压缩与目标输出之间的互信息,同时最小化与检索到的段落之间的互信息。
    3. 方法论
      • 提出一种新的噪声过滤目标,基于信息瓶颈理论,以实现更精确的信息提取。
      • 推导出信息瓶颈公式,用于评估噪声过滤的效果,并指导监督式微调和强化学习。
    4. 实验设置
      • 使用Natural Questions (NQ)、TRIVIAQA和HOTPOTQA等开放域问答数据集进行实验。
      • 使用LLAMA2模型作为过滤和生成模型。
    5. 实验结果
      • 所提方法在多个数据集上显著提高了答案生成的正确性,并达到了2.5%的压缩率。
      • 在Exact Match (EM)和F1分数上均优于基线模型。
    6. 主要创新点
      • 首次将信息瓶颈理论引入检索增强型生成。
      • 提出将信息瓶颈应用于评估指标、监督式微调目标和强化学习奖励。
      • 实验结果显示所提方法在生成正确性和压缩简洁性方面的有效性。
    7. 相关工作:论文回顾了信息瓶颈理论和噪声过滤的相关研究,展示了如何将这些理论应用于RAG。
    8. 方法细节
      • 对信息瓶颈原则进行了详细解释,并将其转化为噪声过滤器的形式。
      • 提供了评估指标、监督式微调和强化学习目标的具体实现细节。
    9. 局限性:论文讨论了方法的局限性,包括对生成器性能的依赖和在True-Flip-Rate (TFR)与False-Flip-Rate (FFR)之间的权衡。
    10. 伦理声明:论文强调了文本生成技术可能被滥用的风险,并声明了研究团队在设计方法时考虑了减少有害内容生成的措施。

    通过这些内容,论文展示了如何通过信息瓶颈理论来提高检索增强型生成在噪声数据处理中的性能。


人生梦想 - 关注前沿的计算机技术 acejoy.com 🐾 步子哥の博客 🐾 背多分论坛 🐾 借一步网
Page Stats: PV: 1995 | UV: 1110
Last updated: 2025-06-18 04:41:44
沪ICP备2024052574号-1