标签: AGI

  • CRAG: 提升检索增强生成的全新基准

    🌍 引言

    在当今自然语言处理(NLP)的世界中,大型语言模型(LLMs)如同璀璨的明星,吸引了广泛的关注。然而,尽管它们在问答(QA)等任务中展现出惊人的能力,依然存在一个显著的问题——幻觉(hallucination)。这意味着这些模型有时会生成缺乏事实基础的答案,导致用户信任度下降。根据研究,GPT-4在回答有关快速变化或慢变化事实时的准确率不足15%。为了应对这一挑战,检索增强生成(Retrieval-Augmented Generation, RAG)应运而生,成为解决LLM知识匮乏问题的有力工具。

    然而,现有的RAG数据集并未充分反映现实世界问答任务的多样性和动态性。为此,我们引入了CRAG(Comprehensive RAG Benchmark),一个包含4409对问答的基准,旨在为研究提供更具代表性和挑战性的数据集。

    📊 问题描述

    CRAG的设计目标是提供一个全面的问答基准,能够充分测试RAG系统在面对多样化问题时的能力。具体而言,我们定义了三个任务,以评估RAG系统在信息检索、结构化查询和问答生成方面的表现。每个任务都使用相同的问答对,但外部数据的可访问性不同,从而确保公平比较。

    📑 数据集描述

    CRAG包含来自五个领域(金融、体育、音乐、电影和开放领域)的问答对,以及用于信息检索的内容。我们构建了600多种问题模板,确保问题的多样性和真实性。此外,我们的问答对涵盖了简单问题和复杂问题,后者包括条件问题、比较问题、聚合问题、多跳问题等,充分反映了用户的实际需求。

    📈 问答对的构建

    问答对的构建分为两个部分:从知识图(KG)和网络内容中生成。我们设计了多种问题类型,以确保数据集的丰富性和动态性。例如,简单问题可能是“某人的出生日期”,而多跳问题则可能是“谁在安吉·李的最新电影中演出?”这样的设计使得CRAG能够有效评估模型在不同情况下的表现。

    🕵️ 内容检索

    为了模拟RAG的实际应用,CRAG还包含了来自真实搜索引擎的网页搜索结果,和模拟的知识图搜索。我们使用Brave Search API从网络中提取了大量HTML页面,并创建了包含260万个实体的模拟知识图。这些内容不仅提供了丰富的信息,还包含了可能的噪音,以便在真实场景中进行有效测试。

    📏 评估指标

    在评估RAG系统的性能时,我们采用了一套评分机制。每个答案根据其准确性被标记为“完美”、“可接受”、“缺失”或“错误”,并依此计算出最终分数。这种评估机制特别重视幻觉的影响,确保模型在生成答案时能够尽量避免谬误。

    🧑‍🤝‍🧑 人工评估与自动评估

    我们结合了人工评估和模型评估的方法,以确保评估结果的可靠性。通过对比人工评分和自动评估模型(如ChatGPT和Llama 3)的结果,我们能够更全面地了解RAG系统在不同任务下的表现。

    🚀 基准测试

    我们对多种RAG解决方案进行了评估,以确定CRAG的难度水平,并从中获取有价值的见解。初步结果显示,大多数先进的LLMs在CRAG上的准确率低于34%,而简单的RAG方案仅将准确率提高至44%。在业界最先进的RAG解决方案中,只有63%的问题能够被正确回答,且没有幻觉发生。这些结果强调了在处理动态、复杂问题时,RAG系统仍面临着不小的挑战。

    📉 业界解决方案的表现

    通过对比不同的RAG解决方案,我们发现,尽管一些业界解决方案在准确率方面有所提升,但在处理高动态性、低人气或高复杂度的问题时,其表现仍然不尽如人意。这一发现为未来的研究指明了方向,强调了构建更可靠的问答系统的必要性。

    🔮 结论

    CRAG的引入为检索增强生成领域铺平了道路,提供了一个全面且富有挑战性的基准。通过对现有RAG解决方案的深入分析,我们发现了许多改进的空间。未来,我们计划继续扩展CRAG,以适应多语言、多模态和多轮对话的需求,确保其在不断变化的研究环境中保持前沿地位。

    📚 参考文献

    1. Achiam, J., et al. GPT-4 technical report. arXiv preprint arXiv:2303.08774, 2023.
    2. AI@Meta. Llama 3 model card. 2024.
    3. Bajaj, P., et al. MS MARCO: A human generated machine reading comprehension dataset, 2018.
    4. Brave Software. Brave Search API.
    5. Chen, J., et al. Benchmarking large language models in retrieval-augmented generation. arXiv preprint arXiv:2309.01431, 2023.

  • 🌐 超稀疏BERT:条件稀疏语言建模的99%潜力

    在当今的自然语言处理(NLP)领域,语言模型的复杂性与性能之间的平衡越来越受到研究者的关注。近日,NVIDIA和ETH Zürich的研究者们提出了一种名为UltraSparseBERT的新型BERT变体,展现了如何在保持性能的同时显著减少计算资源的使用。该模型在推理阶段仅使用0.3%的神经元,完成与传统BERT模型相似的任务表现,展示了深度学习领域的一次重大突破。

    🚀 从稠密到稀疏:模型的革命

    语言模型,尤其是基于BERT的架构,通常包含大量的神经元和参数。传统的前馈神经网络在推理时需要激活所有的神经元,导致计算开销巨大。研究者们发现,实际上,在处理每个输入时,仅需激活少量神经元即可获得足够的输出。这一发现促使了UltraSparseBERT的诞生,利用一种称为“快速前馈网络”(Fast Feedforward Networks, FFF)的新架构。

    UltraSparseBERT在每层推理过程中仅选择12个神经元进行计算,而不是4095个。这一选择的关键在于采用条件执行的方式,即根据输入的不同,仅激活与之相关的神经元。这样一来,计算效率大幅提升,推理速度提高,极大降低了模型的资源消耗。

    ⚡ 高效推理的实施

    UltraSparseBERT的实现依赖条件矩阵乘法(Conditional Matrix Multiplication, CMM),这一算法的核心在于逐行进行输入和权重的点积运算。具体而言,通过选择在给定输入下最相关的权重列,UltraSparseBERT能够在不牺牲性能的情况下,显著减少所需的计算量。

    下面是该算法的伪代码,展示了如何进行快速前馈推理:

    函数 CMM(I, Win):
        对于 d ∈ {1, ..., D - 1}:
            L⋆,d ← I ⋅ Win[N⋆,d−1],⋆
            N⋆,d ← 2N⋆,d−1 + 1 + (L⋆,d > 0)
        返回 L, N

    通过这个算法,UltraSparseBERT能够在CPU上实现78倍的速度提升,并在GPU上实现4.1倍的速度提升,展示出其在实际应用中的巨大潜力。

    🌱 模型性能的保持与评估

    在进行一系列下游任务的微调后,UltraSparseBERT在GLUE基准测试上的表现令人瞩目。研究表明,尽管模型在参数稀疏化上取得了显著进展,其在大多数任务上的表现依然保持在96%以上,尤其是对RTE、MRPC、SST等任务的预测表现与原始BERT模型相当。

    模型RTEMRPCSTSBSST-2MNLIQNLIQQPCoLA平均分
    UltraSparseBERT-1×1157.888.186.189.780.289.387.182.377.3
    crammedBERT-307258.887.685.291.982.890.489.083.679.3

    这张表格清晰地展示了UltraSparseBERT在不同任务上的表现,尤其是它在大多数任务上与传统模型相当的能力,充分证明了稀疏神经元选择的有效性。

    🌟 总结与展望

    UltraSparseBERT的研究不仅展示了条件稀疏性的潜力,更为未来的语言模型设计提供了新的思路。通过高效的资源利用和对神经元的智能选择,UltraSparseBERT为实现更快速、更高效的自然语言处理模型奠定了基础。随着技术的不断进步,未来的语言模型将可能在保证性能的前提下,愈加轻量化和高效化。

    参考文献

    1. Belcak, P., & Wattenhofer, R. (2024). UltraSparseBERT: 99% Conditionally Sparse Language Modelling. Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics.
    2. Brown, T. B., et al. (2020). Language Models are Few-Shot Learners. NeurIPS.
    3. Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL.
    4. Wang, A., et al. (2018). GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding. ICLR.
    5. Geiping, J., & Goldstein, T. (2023). crammedBERT: An Efficient BERT Model. ACL.

人生梦想 - 关注前沿的计算机技术 acejoy.com 🐾 步子哥の博客 🐾 背多分论坛 🐾 借一步网
Page Stats: PV: 2541 | UV: 1297
Last updated: 2025-07-01 07:28:39
沪ICP备2024052574号-1