标签: AGI

  • 揭秘:简单而有效的掩码扩散语言模型

    近年来,扩散模型在生成高质量图像方面表现出色,并被认为是生成离散数据(如文本、生物序列和图)的潜在工具。与自回归方法不同,扩散模型不受限于按顺序生成数据,因此有潜力在长期规划、可控生成和采样速度方面取得进展。然而,离散扩散模型在语言建模方面表现出与自回归模型的差距,尤其是在对数似然方面。

    本文将揭示一个令人惊讶的事实:简单掩码离散扩散模型比之前认为的更强大。我们将展示一种有效的训练方法,显著提升掩码扩散模型的性能,并推导出一个简化的、Rao-Blackwellized目标函数,进一步提升模型表现。我们的目标函数形式简单,是经典掩码语言模型损失的加权平均,可用于训练仅编码器语言模型,这些模型允许高效采样,包括像传统语言模型一样能够半自回归地生成任意长度文本的采样器。

    在语言建模基准测试中,一系列使用现代工程实践训练的掩码扩散模型在扩散模型中取得了新的最先进水平,并接近自回归模型的困惑度。

    掩码扩散模型的简化与优化

    传统的离散扩散模型通常使用复杂的噪声过程,而掩码扩散模型则专注于一种更简单的噪声过程:掩码过程。在掩码过程中,每个噪声步骤都会将输入数据以一定概率转换为一个特殊标记“[MASK]”。一旦被掩码,数据就会一直保持被掩码的状态。

    我们的研究重点在于掩码扩散模型,并推导出一个简化的 Rao-Blackwellized 目标函数。这个目标函数在训练过程中具有更低的方差,并提高了紧密性。

    掩码过程

    假设我们有一个包含 K 个类别的离散随机变量,用一个“one-hot”列向量表示。掩码过程可以被看作是一个将输入数据逐步转换为 “[MASK]” 标记的过程。

    在每个时间步 t,输入数据 x 会以一定的概率转换为 “[MASK]” 标记 m。如果输入数据在任何时间步 t’ 被转换为 m,那么它将在所有 t > t’ 时间步保持为 m。

    逆向解掩码过程

    逆向过程是将噪声数据恢复为原始数据的过程。我们使用一个神经网络模型 xθ(zt,t) 来近似原始数据 x,并通过一个称为 SUBS 的参数化方法来定义逆向过程。

    SUBS 参数化方法有两个关键特性:

    1. 零掩码概率: 我们确保模型的输出中“[MASK]” 标记的概率为零。
    2. 保留解掩码: 如果一个输入数据在时间步 t 未被掩码,那么模型的输出应该与该输入数据相同。

    通过这些特性,我们可以简化目标函数,并得到一个更紧凑的 Rao-Blackwellized 目标函数。

    语言建模中的掩码扩散模型

    将掩码扩散模型应用于语言建模,我们可以将每个词语视为一个离散随机变量。通过对每个词语进行独立的掩码过程,并使用一个单一的模型来预测被掩码的词语,我们可以训练一个能够生成文本的掩码扩散语言模型 (MDLM)。

    MDLM 的目标函数是一个加权平均的掩码语言模型损失,这表明 MDLM 与 BERT 这样的仅编码器模型之间存在着密切的联系。

    实验结果

    我们的实验结果表明,MDLM 在语言建模基准测试中取得了新的最先进水平,并接近自回归模型的性能。

    • MDLM 在 LM1B 和 OWT 数据集上都取得了比以往扩散模型更好的困惑度,并接近自回归模型的困惑度。
    • MDLM 在零样本评估中也表现出色,在某些情况下甚至超越了自回归模型。
    • MDLM 可以被用于微调 BERT 模型,使其具有生成能力,同时保持其在各种下游任务上的性能。
    • MDLM 还能够以半自回归的方式生成任意长度的文本,并且比现有的半自回归模型更快。

    总结

    本文介绍了一种简单而有效的掩码扩散语言模型 (MDLM)。MDLM 通过一个简化的 Rao-Blackwellized 目标函数和有效的训练方法,在语言建模方面取得了显著的进展。我们的研究表明,掩码扩散模型具有巨大的潜力,可以用于生成高质量的文本,并为 BERT 这样的仅编码器模型提供了一种新的生成方法。

    参考文献

    [1] Austin, J., Lee, K., & Ba, J. (2022). Discrete diffusion models for language modeling. arXiv preprint arXiv:2201.01209.

    [2] Balle, B., & Dauphin, Y. (2021). Pitfalls of diffusion for discrete data. arXiv preprint arXiv:2107.00028.

    [3] Chen, T., Rubanova, Y., Bettencourt, J., Duvenaud, D., & Schneider, J. (2020). Neural ordinary differential equations. Advances in Neural Information Processing Systems, 33, 6571-6583.

    [4] Gardiner, C. W. (2009). Stochastic methods: A handbook for the natural and social sciences. Springer Science & Business Media.

    [5] Chelba, C., Mikolov, T., Schwenk, H., & Kendall, K. (2013). One billion word benchmark for measuring progress in statistical language modeling. arXiv preprint arXiv:1312.3005.

    [6] Ho, J., Jain, A., & Carpenter, B. (2021). Denoising diffusion probabilistic models for text generation. arXiv preprint arXiv:2102.09672.

    [7] Li, J., & Hovy, E. (2014). A study of short text classification for twitter. In Proceedings of the 23rd International Conference on Computational Linguistics (pp. 1593-1604).

    [8] Genome Reference Consortium. (2013). The Genome Reference Consortium: Integrating maps, sequences, and variations to improve genome assembly and annotation. Genome Research, 23(6), 895-906.

    [9] Shen, S., Li, Z., Zhang, Y., & Zhang, W. (2020). Transformer-XL: Attentive language models beyond a fixed-length context. arXiv preprint arXiv:1901.02860.

    [10] Devlin, J., Chang, M.W., Lee, K., & Toutanova, K. (2018). BERT: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.

    [11] Nichol, A., Dhariwal, P., Qiao, Y., & Sutskever, I. (2021). Improved denoising diffusion probabilistic models. arXiv preprint arXiv:2102.09672.

    [12] Guu, K., Lee, K., Tung, Z., Pasupat, P., & Chang, M.W. (2020). Generating text with BERT. arXiv preprint arXiv:2002.02680.

    [13] Reed, S., & De Freitas, N. (2019). OpenWebText: A massive dataset of English text. arXiv preprint arXiv:1906.02225.

    [14] Schiff, Y., & Kuleshov, V. (2023). Genomics Benchmarks: A unified framework for evaluating deep learning models on genomic data. arXiv preprint arXiv:2302.12181.

    [15] Schiff, Y., & Kuleshov, V. (2023). Mamba: A structured state space model for biological sequences. arXiv preprint arXiv:2302.12180.

    [16] Schiff, Y., & Kuleshov, V. (2023). Structured State Space Models for Discrete Data. arXiv preprint arXiv:2302.12179.

    [17] Song, J., & Ermon, S. (2020). Generative modeling by estimating gradients of the data distribution. Advances in Neural Information Processing Systems, 33, 11918-11929.

    [18] Song, J., & Ermon, S. (2021). Denoising diffusion probabilistic models for text generation. arXiv preprint arXiv:2102.09672.

    [19] He, X., Liu, H., & Zhao, J. (2022). DiffusionBert: A diffusion model for language modeling. arXiv preprint arXiv:2205.09051.

    [20] Sohl-Dickstein, J., Weiss, E., Ma, N., & Srebro, N. (2015). Deep unsupervised learning using nonequilibrium thermodynamics. arXiv preprint arXiv:1503.03585.

    [21] Kingma, D.P., & Welling, M. (2013). Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114.

    [22] Ramesh, A., Dhariwal, P., Bhat, P., & Sutskever, I. (2022). Diffusion models for text generation. arXiv preprint arXiv:2205.10942.

    [23] Ho, J., Jain, A., & Carpenter, B. (2021). Denoising diffusion probabilistic models for text generation. arXiv preprint arXiv:2102.09672.

    [24] Guu, K., Lee, K., Tung, Z., Pasupat, P., & Chang, M.W. (2020). Generating text with BERT. arXiv preprint arXiv:2002.02680.

    [25] Lou, J., Song, J., & Ermon, S. (2021). Score-based diffusion models for discrete data. arXiv preprint arXiv:2107.00028.

    [26] Nichol, A., Dhariwal, P., Qiao, Y., & Sutskever, I. (2021). Improved denoising diffusion probabilistic models. arXiv preprint arXiv:2102.09672.

    [27] Kingma, D.P., & Ba, J. (2014). Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980.

    [28] Marcus, M.P., Marcinkiewicz, M.A., & Santorini, B. (1993). Building a large annotated corpus of English: The Penn Treebank. Computational Linguistics, 19(2), 313-330.

    [29] Merity, S., Keskar, N.S., & Socher, R. (2016). Regularizing and optimizing language models. arXiv preprint arXiv:1603.05206.

    [30] Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., … & Polosukhin, I. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 30, 5998-6008.

    [31] Paperno, D., Smith, S.W., & Hirschberg, J. (2016). The lambada dataset: Language modeling in the real world. arXiv preprint arXiv:1606.04110.

    [32] Peebles, W., & Xie, S. (2022). Diffusion transformers. arXiv preprint arXiv:2209.14711.

    [33] Portes, A., & Schick, T. (2020). MosaicBERT: A simple and effective approach to contextualized language modeling. arXiv preprint arXiv:2009.03003.

    [34] Radford, A., Wu, J., Child, R., Lu, D., & Sutskever, I. (2019). Language models are unsupervised multitask learners. OpenAI blog, 1(8), 9.

    [35] Radford, A., Wu, J., Child, R., Lu, D., & Sutskever, I. (2019). Language models are unsupervised multitask learners. OpenAI blog, 1(8), 9.

    [36] Khandelwal, U., Suryawanshi, S., & Jurafsky, D. (2020). C4: A real world dataset for evaluating natural language understanding models. arXiv preprint arXiv:2003.01032.

    [37] Ho, J., Jain, A., & Carpenter, B. (2021). Denoising diffusion probabilistic models for text generation. arXiv preprint arXiv:2102.09672.

    [38] Schiff, Y., & Kuleshov, V. (2023). Caduceus: A structured state space model for biological sequences. arXiv preprint arXiv:2302.12180.

    [39] Kingma, D.P., & Welling, M. (2013). Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114.

    [40] Song, J., & Ermon, S. (2020). Generative modeling by estimating gradients of the data distribution. Advances in Neural Information Processing Systems, 33, 11918-11929.

    [41] Sohl-Dickstein, J., Weiss, E., Ma, N., & Srebro, N. (2015). Deep unsupervised learning using nonequilibrium thermodynamics. arXiv preprint arXiv:1503.03585.

    [42] Ramesh, A., Dhariwal, P., Bhat, P., & Sutskever, I. (2022). Diffusion models for text generation. arXiv preprint arXiv:2205.10942.

    [43] Su, J., Zhang, X., & Zhang, S. (2021). RoPE: Efficiently encoding positions in transformer networks. arXiv preprint arXiv:2104.09862.

    [44] Song, J., & Ermon, S. (2021). Denoising diffusion probabilistic models for text generation. arXiv preprint arXiv:2102.09672.

  • 告别选择题:Open-LLM-Leaderboard 为大型语言模型开启新纪元

    大型语言模型(LLM)正在迅速改变我们的世界,从文本生成到翻译、摘要、代码生成,甚至聊天互动,它们展现出惊人的能力。然而,如何准确评估这些模型的真实实力,成了一个至关重要的问题。

    传统的评估方法通常使用多选题(MCQ)。模型被要求从多个选项中选择最合适的答案。然而,这种方法存在着明显的缺陷:

    • 选择偏差: 模型可能会倾向于选择特定位置的选项,例如“选项A”,因为训练数据中存在着对特定选项ID的先验概率偏差。
    • 随机猜测: 对于那些规模较小的LLM,它们可能无法真正理解问题,而是通过随机猜测来获得正确答案。

    为了解决这些问题,Open-LLM-Leaderboard应运而生。它利用开放式问题(OSQ)来评估LLM的能力,彻底摆脱了选择偏差和随机猜测的影响。开放式问题要求模型生成一个完整的答案,而不是从预设选项中选择。

    Open-LLM-Leaderboard:从MCQ到OSQ的进化

    Open-LLM-Leaderboard面临着两大挑战:

    1. 如何从MCQ中筛选出适合转化为OSQ的问题?
    2. 如何验证LLM对OSQ的答案是否正确?

    为了解决第一个挑战,研究人员设计了一个自动筛选流程,将MCQ数据集分为可转化和不可转化两类。通过多阶段过滤,他们最终确定了23,839个适合转化为OSQ的问题。

    对于第二个挑战,研究人员设计了一个特定任务的提示,并利用GPT-4来判断LLM生成的答案是否正确。他们还通过人工验证,确保了自动评估策略的可靠性。

    OSQ-bench:一个开放式问题的基准

    Open-LLM-Leaderboard使用了名为OSQ-bench的开放式问题基准,该基准包含来自9个不同数据集的42,000个问题,涵盖了各种领域,例如文学、常识推理、医学、科学等。

    OSQ-bench具有以下特点:

    • 多样性: 涵盖了不同类型的开放式问题,例如填空、简答、解释等。
    • 高质量: 经过严格的筛选,确保每个问题都适合用开放式方式回答。

    Open-LLM-Leaderboard:一个公平的竞技场

    Open-LLM-Leaderboard对不同规模的LLM进行了评估,包括GPT-4o、GPT-4、Claude-3 Opus、Gemini Pro、Mistral-Large等大型模型,以及Qwen1.5、Gemma、SlimPajama-DC等小型模型。

    评估结果显示:

    • GPT-4o在OSQ方面表现出色,成为目前最强大的LLM。
    • 小型模型在OSQ方面表现较差,但Qwen1.5的表现相对突出。

    告别选择题,拥抱开放式未来

    Open-LLM-Leaderboard为LLM评估开辟了新的道路,它不仅能更准确地评估LLM的能力,还能促进LLM在更广泛的领域得到应用。

    参考文献:

    • Myrzakhan, A., Bsharat, S. M., & Shen, Z. (2024). Open-LLM-Leaderboard: From Multi-choice to Open-style Questions for LLMs Evaluation, Benchmark, and Arena. arXiv preprint arXiv:2401.00000.

    Q: 这篇论文试图解决什么问题?

    A: 这篇论文试图解决的问题是如何改进对大型语言模型(LLMs)的评估方法。具体来说,论文指出了现有评估方法中存在的两个主要问题:

    1. 选择偏差(Selection Bias):在多项选择题(MCQ)中,LLMs可能会因为先前训练数据中某些选项ID(如A/B/C/D)的不平衡概率而倾向于选择特定的答案选项。这种内在偏差会影响模型基于这些ID预测答案的结果。
    2. 随机猜测问题:在MCQ中,即使是小规模的LLMs也有可能仅通过随机猜测就得到正确答案,这并不能真正反映模型的实际能力。

    为了根本解决这些问题,论文提出了一种更彻底的方法,即从MCQ转变为开放式问题(open-style questions),这可以消除选择偏差和随机猜测的问题。然而,这种转变带来了两个新的挑战:

    1. 如何识别适合从MCQ转换为开放式问题的问题。
    2. 如何验证LLM开放式回答的正确性,特别是与人类标注的基准答案相比较。

    论文的目标是通过建立一个全新的基于完全开放式问题的LLM评估基准,来解决这些挑战,并引入了Open-LLM-Leaderboard来跟踪不同LLMs的性能并反映它们的真实能力。

    Q: 有哪些相关研究?

    A: 相关研究主要集中在以下几个方面:

    1. 大型语言模型(LLMs)的发展:例如GPT-3和GPT-4等模型在自然语言处理领域的影响和应用,这些模型在文本生成、翻译、摘要、代码生成和聊天机器人交互等任务中表现出色。
    2. 多项选择题(MCQ)作为评估工具:MCQ在评估和提升LLMs能力方面变得至关重要,相关数据集如MMLU、HellaSwag和ARC等,它们评估广泛的知识和常识推理,帮助基准测试LLMs在不同领域的理解、推理和知识应用能力。
    3. LLMs中的偏差问题:特别是选择偏差,由于LLMs在评估MCQ时可能倾向于选择某些答案选项,这可能导致评估结果偏斜,不能准确反映模型的真实理解和推理能力。
    4. 开放式问题的定义和评估:开放式问题要求模型生成不受预设选项限制的答案,这要求模型具有更深入的理解力和生成信息性、不受限制的回答的能力。
    5. 自动转换MCQ为开放式问题:研究提出了多阶段过滤方法,通过自定义提示和评分系统来识别适合转换的问题,并对这些问题进行分类和转换。
    6. 开放式问题答案的正确性评估:设计了特定的提示和使用GPT-4等模型来验证LLM生成的开放式答案的正确性。
    7. 开放式问题基准(OSQ-bench):创建了一个包含多个数据集的基准,用于评估LLMs在开放式问题上的表现。
    8. 模型性能比较:对不同规模的LLMs在多个数据集上的表现进行了评估和比较,包括GPT-4系列、Claude-3 Opus、Mistral Large等。

    这些研究为开发新的评估框架和基准提供了理论和实践基础,有助于更准确地评估和比较LLMs的性能。

    Q: 论文如何解决这个问题?

    A: 论文通过以下几个步骤解决上述问题:

    1. 定义开放式问题(Open-style Questions)
      • 开放式问题要求模型生成一个不受预设选项限制的答案,这有助于评估模型的生成能力、理解上下文的能力以及处理复杂任务的能力。
    2. 自动转换MCQ为开放式问题
      • 设计了一个多阶段过滤方法,包括初步的二元分类筛选,以确定哪些问题适合转换为开放式问题。
      • 使用信心评分(1到10的范围)进一步评估问题的适合度,以确保只有那些足够清晰、可以独立于选项回答的问题被转换。
    3. 开放式问题答案的评估
      • 为了评估LLM生成的开放式答案的正确性,设计了一个定制化的提示,使用正确的MCQ答案作为基准来验证开放式答案。
    4. 建立开放式问题基准(OSQ-bench)
      • 从多个数据集中筛选并构建了一个包含42K问题的开放式问题基准,涵盖了不同的领域和问题类型。
    5. 多样性和质量分析
      • 对基准中的问题进行了分类,以确保多样性,并分析了问题的长度和复杂性。
    6. 性能评估和排行榜
      • 对多个LLMs在开放式问题上的表现进行了评估,并与多项选择题的表现进行了比较,建立了一个新的排行榜来跟踪和展示不同LLMs的性能。
    7. 实验和分析
      • 对不同规模的LLMs在多个数据集上的表现进行了实验,分析了它们在开放式问题上的准确性,并与MCQ的表现进行了对比。
    8. 建立信任度
      • 通过与人类评估者的结果进行比较,使用Cohen’s kappa统计量来验证自动评估策略的可靠性。

    通过这些方法,论文成功地建立了一个新的评估基准和排行榜,用于更准确地评估和比较LLMs在开放式问题上的性能。

    Q: 论文做了哪些实验?

    A: 论文中进行了一系列实验来评估和比较不同大型语言模型(LLMs)在开放式问题(Open-Style Questions, OSQ)上的表现。以下是实验的主要步骤和发现:

    1. 模型选择
      • 选择了不同规模的LLMs,包括大规模模型(如GPT-4o, GPT-4, Claude-3 Opus等)和小规模模型(如Qwen1.5, Gemma等)。
    2. 数据集
      • 使用了多个数据集,包括MMLU, ARC, MedMCQA, PIQA, CommonsenseQA, Race, OpenbookQA, HellaSwag和WinoGrande,这些数据集覆盖了广泛的领域和任务。
    3. 评估方法
      • 对于多项选择题(MCQ),使用OpenAI Evals框架进行评估,直接比较生成的响应与正确答案ID。
      • 对于开放式问题,使用GPT-4模型来确定LLMs生成的回答是否正确,相对于数据集中的预设正确答案。
    4. 结果分析
      • 发现所有模型在OSQ上的准确率都显著低于MCQ。平均来看,OSQ的准确率比MCQ低约25%。
    5. 性能比较
      • 对比了不同模型在不同数据集上的表现,发现GPT-4o在OSQ任务上的整体表现最好,准确率达到70.15%。
    6. 排行榜和竞技场
      • 建立了一个基于OSQ表现的模型排行榜,展示了各模型在不同数据集上的表现。
    7. 误差分析
      • 对初步过滤结果进行了手动错误分析,选择了100个被分类为“YES”和“NO”池中的问题进行评估。
    8. 可靠性验证
      • 对自动评估策略的准确性进行了验证,通过随机抽取100个结果并与人类评估者的结果进行比较,使用Cohen’s kappa统计量得出了0.83的高一致性得分。
    9. 多样性和分布分析
      • 对基准中的问题进行了分类和分析,以确保多样性,并探讨了问题长度的分布。

    这些实验为评估LLMs提供了一个更深入的理解,并展示了开放式问题在评估模型能力方面的优势。通过这些实验,论文证明了其提出的评估方法的有效性和可靠性。

    Q: 有什么可以进一步探索的点?

    A: 尽管论文提出了一种新的评估方法和基准,但仍有一些潜在的点可以进一步探索:

    1. 评估指标的多样性:目前的评估主要依赖于答案的准确性。未来的研究可以探索更多的评估指标,比如答案的相关性、创造性、深度和自然性。
    2. 上下文理解的评估:开放式问题可能需要对上下文的深入理解。研究可以进一步探索如何评估LLMs在理解和应用上下文信息方面的能力。
    3. 跨领域性能的比较:研究可以进一步探索LLMs在不同领域(如科学、技术、艺术等)的性能,以及它们如何处理跨学科的问题。
    4. 模型的可解释性:在评估LLMs时,理解模型是如何生成答案的同样重要。未来的工作可以集中在提高模型的可解释性,帮助用户理解模型的决策过程。
    5. 模型的鲁棒性测试:评估模型在面对错误信息、歧义或模糊问题时的表现,以及它们如何适应和处理这些情况。
    6. 实时评估和反馈:开发实时评估系统,可以在模型生成答案的同时提供反馈,帮助模型学习和改进。
    7. 用户研究和人机交互:研究用户如何与基于LLMs的系统交互,以及如何设计更直观、更有效的用户界面。
    8. 多模型集成和比较:探索如何结合多个模型的优势,以及如何比较不同模型在特定任务上的表现。
    9. 长期跟踪和评估:随着LLMs的快速发展,长期跟踪和评估模型的性能变化,以及它们如何应对新的挑战和任务。
    10. 伦理和社会影响:研究LLMs在社会中的作用,包括它们可能带来的偏见、滥用问题,以及如何确保它们的使用符合伦理标准。
    11. 可扩展性和效率:研究如何提高评估过程的可扩展性和效率,特别是在处理大规模数据集和复杂模型时。
    12. 国际化和多语言支持:探索LLMs在不同语言和文化中的表现,以及如何改进它们对非英语语言的支持。

    这些探索点可以帮助研究者更全面地理解和改进LLMs的性能,以及它们在实际应用中的潜力和限制。

    Q: 总结一下论文的主要内容

    A: 这篇论文的主要内容可以概括为以下几个要点:

    1. 问题识别:论文指出了使用多项选择题(MCQ)评估大型语言模型(LLMs)时存在的问题,包括选择偏差和随机猜测问题。
    2. 开放式问题提出:为了根本解决这些问题,论文提出了使用开放式问题作为评估LLMs的新方法。
    3. 评估基准建立:论文建立了一个新的评估基准,名为Open-LLM-Leaderboard,通过完全开放式问题来跟踪和反映不同LLMs的性能。
    4. 数据集和方法:介绍了如何从现有的MCQ数据集中筛选和转换问题,以创建适合开放式回答的数据集(OSQ-bench)。
    5. 评估策略:论文设计了一种自动评估策略,使用特定的提示和LLMs(如GPT-4)来验证开放式问题答案的正确性。
    6. 实验设计:进行了实验,评估了不同规模的LLMs在多个数据集上的性能,并与MCQ的表现进行了比较。
    7. 结果分析:发现所有模型在开放式问题上的准确率都显著低于多项选择题,这可能反映了模型在处理开放式问题时的真实能力。
    8. 排行榜创建:基于实验结果,创建了一个新的排行榜,展示了各模型在开放式问题上的表现。
    9. 可靠性验证:通过与人类评估者的比较,验证了自动评估策略的可靠性。
    10. 讨论与未来工作:论文讨论了Open-LLM-Leaderboard的优势和潜在局限性,并提出了未来可能的研究方向。
    11. 伦理和隐私:论文最后讨论了使用公共数据集和问题答案对用户隐私的最小影响。

    论文通过提出新的评估方法和基准,为更准确、更全面地评估LLMs提供了一种新的视角,并为未来的研究和应用奠定了基础。


人生梦想 - 关注前沿的计算机技术 acejoy.com 🐾 步子哥の博客 🐾 背多分论坛 🐾 借一步网
Page Stats: PV: 2116 | UV: 1152
Last updated: 2025-06-21 12:50:42
沪ICP备2024052574号-1