标签： AGI

PEDAL：用多样化示例增强贪婪解码的长语言模型
引言

在如今这个人工智能飞速发展的时代，长语言模型（LLMs）如同一位不知疲倦的知识工作者，凭借其在自然语言理解任务中的出色表现，赢得了广泛的关注。然而，尽管其推理能力令人惊叹，这些模型仍然依赖于精心设计的提示，才能在各种任务中达到最佳表现。为了解决这一问题，研究者们提出了多种自集成技术，如“自一致性”（Self-Consistency，SC），通过多样化的“思维链”（Chain-of-Thought，CoT）推理路径生成，并将这些路径聚合，从而构建准确可靠的响应。

然而，自一致性方法并非没有缺陷。它们通常需要依赖准确的答案提取过程，以便在多个输出之间进行聚合。此外，这种方法的推理成本较高，因为生成的输出令牌数量相对较多。与贪婪解码方法相比，SC方法的计算成本显著增加。因此，研究人员尝试了结合多样化示例的提示与长语言模型的聚合能力，以提高文本生成的准确性和效率。

在本文中，我们提出了一种新的混合自集成方法——PEDAL（基于示例多样性聚合的提示），它将多样化示例提示的优势与长语言模型聚合相结合，从而在准确性和推理成本之间达到平衡。我们的实验结果表明，PEDAL在公开的SVAMP和ARC数据集上，能够实现比传统贪婪解码策略更高的准确性，同时在推理成本上也优于自一致性方法。

相关工作

长语言模型的应用范围广泛，包括代码生成、金融分析、法律推理等多个领域。但在所有任务中，似乎没有任何单一的模型能够始终如一地超越其他模型。这种现象促使研究者们探索集成方法，以提高整体性能。

自集成策略

自集成策略通过组织语言模型生成的“思维”成树状结构以进行解题搜索。尽管这种方法有效，但它们通常依赖于自定义聚合方法来构建最终输出。最近的研究表明，利用长语言模型进行多数共识聚合可以有效解决这一问题。在我们的工作中，我们采用类似的策略来聚合多个候选响应，并重点关注多样化提示在聚合过程中的作用。

提示集成策略

随着长语言模型的普及，众多研究集中于开发有效的提示技术，这些技术通过多种提示集成方法得以扩展以进一步提高性能。我们的方法也采用了类似的提示构建策略，但在聚合预测时不依赖于针对特定任务的模型训练。我们更关注通过提示策略来降低长语言模型的推理成本，而不是提升基于自一致性的方法。

长语言模型推理成本

为了解决推理成本问题，研究者们通常探索模型压缩技术，如模型量化、剪枝和蒸馏等。这些方法旨在在不显著影响性能的情况下减少模型的体积。在我们的研究中，我们的目标是减少长语言模型推理中的输出令牌数量，从而在实现更高准确度的同时降低推理成本。

方法论

我们的系统构架如图1所示，长语言模型通过贪婪解码策略，使用基于多样化示例的提示生成多个候选响应，然后通过同一模型聚合这些响应，生成最终输出。

多样化示例的提示构建

传统的思维链方法依赖于固定示例集的单一提示，而我们的方法通过随机选取示例来构建多个提示，从而进一步提升长语言模型的推理能力。每个提示都基于不同的种子设置，生成候选响应。

基于LLM的聚合

我们遵循自一致性的方法，利用长语言模型对多个候选响应进行聚合，以提取最终响应。

实验

我们选择了两个公开可用的数据集以验证我们的实验：
1. SVAMP：包含简单的数学文字问题。
2. AI2 Reasoning Challenge (ARC)：包含从3至9年级的科学考试问题，并分为“ARC-Easy”和“ARC-Challenge”两个部分。
在每个数据集的验证分割上进行实验，我们比较了PEDAL与多种基线策略的表现，包括贪婪解码、自一致性和统一多样化示例等。

结果与分析

我们的实验结果显示，PEDAL在准确性和推理成本上均优于贪婪解码和自一致性方法。具体而言，在SVAMP数据集中，PEDAL的准确率达到了77.89%，而贪婪解码的准确率为76%。在ARC数据集中，PEDAL的表现同样优于贪婪解码。

算术推理

在SVAMP数据集中，PEDAL的准确率提升了1.89%。而在ARC数据集中，PEDAL的准确率也显示出一定的提升。尽管自一致性方法在准确率上略高，但PEDAL的推理成本显著低于自一致性。

多项选择题回答

在ARC数据集的实验中，PEDAL的表现略优于贪婪解码，展现出其在处理多样化问题时的优势。

与思维链的比较

PEDAL的输出令牌消耗在大多数情况下低于自一致性，显示出其在推理效率上的优势。我们相信，未来的研究将进一步探讨这两种方法在实际应用中的优缺点。

多样化提示数量的影响

我们发现，随着多样化提示数量的增加，PEDAL的性能也有所提升，这表明多样化示例的引入对提高模型的准确性具有积极作用。

结论

本文提出的PEDAL方法通过结合多样化示例与长语言模型的输出聚合，展现出了在准确性和推理成本方面的双重优势。尽管我们的实验集中在小型数据集上，未来我们计划将这一方法扩展到更广泛的文本生成任务中，以深入探讨其潜力。

参考文献
1. Arora et al. (2022). Ask me anything: A simple strategy for prompting language models.
2. Brown et al. (2020). Language models are few-shot learners.
3. Chen et al. (2023b). Universal self-consistency for large language model generation.
4. Zhao et al. (2023). A survey of large language models.
5. Wang et al. (2022). Self-consistency improves chain of thought reasoning in language models.
2024 年 8 月 19 日
在预训练大型语言模型中，稀疏化是成功的关键
当今的人工智能领域，尤其是在自然语言处理（NLP）中，预训练-微调的范式已经成为一种主流的方法。这种方法利用在大规模数据集上进行预训练的模型，然后将其微调到特定的下游任务上。然而，随着模型参数数量的激增，完整微调所有参数的成本变得异常高昂。因此，如何有效地将这些预训练的模型适应到下游任务中，成为了一个引人深思的问题。

参数高效微调：稀疏化的魅力

为了解决这一问题，研究者们提出了一系列参数高效微调（PEFT）的方法。这些方法的核心思想是通过仅更新一小部分参数来实现类似于全面微调的性能。例如，Houlsby等（2019）提出的Adapter方法，通过在预训练模型的不同层之间插入一个瓶颈结构，使得只更新瓶颈层的参数，从而实现了参数的高效利用。

另一个著名的例子是LoRA（Hu et al., 2021），该方法通过冻结预训练模型的权重，并在每个Transformer层中插入可训练的秩分解矩阵，从而实现了高效的微调。尽管这些方法已经展示出了一定的有效性，但它们的基本原理仍然不够明确。

在这项研究中，我们通过PAC-Bayesian泛化误差界限的视角，探索了预训练模型的微调效率。PAC-Bayesian理论允许我们考虑先验知识作为贝叶斯先验，而不假设先验的真实性，这为理解模型的泛化能力提供了新的视角。我们发现，通过预训练，模型的先验分布发生了显著的变化，这使得模型在微调时能够更有效地找到优化的解。

从随机初始化到预训练初始化的转变

在预训练过程中，模型学习了诸如语法和语义等基本语言特征，进而导致其参数空间中的某些维度变得更加重要。同时，这种先验的转变使得模型的损失景观从平缓的振荡转变为更尖锐的振荡。这种变化可以通过可视化损失景观来理解。

例如，通过对RoBERTa模型进行实验，我们发现随机初始化的损失景观相对平坦，而预训练后的损失景观则呈现出更为尖锐的特征。这一现象表明，预训练模型的优化空间已经被压缩，导致在微调过程中仅需更新少量的参数即可获得良好的性能。这种现象的背后是梯度分布的“准稀疏性”，即少数参数主导了大部分的梯度范数。

稀疏增量微调（SIFT）：一种新的方法论

基于上述的理论基础，我们提出了一种新的微调算法——稀疏增量微调（SIFT）。SIFT的核心思想是仅更新梯度值较大的少量参数，从而在不改变模型结构的情况下，实现参数的高效利用。与传统的PEFT方法不同，SIFT不需要插入额外的模块，而是直接对预训练模型的参数进行稀疏更新。

具体而言，SIFT通过在反向传播中插入钩子函数来获取稀疏梯度，并在参数更新时仅对这些稀疏梯度进行操作。这种方法不仅提高了内存的使用效率，还能在多种任务上表现出色。

在GLUE基准测试中，我们的实验结果显示，SIFT在微调RoBERTa模型时，能够在仅使用0.8M可训练参数的情况下，获得与全微调相当的性能。这一结果证明了稀疏更新的有效性，并为未来的研究提供了新的方向。

总结与展望

总结而言，我们的研究揭示了预训练大型语言模型在微调过程中的一些关键特性，包括梯度的准稀疏性和优化空间的压缩。这些发现为我们深入理解模型的泛化能力提供了重要的视角。同时，SIFT作为一种新的微调方法，展示了如何在不增加模型复杂度的情况下，实现更高效的参数更新。

未来，我们计划进一步探索SIFT在更大规模模型和更复杂任务中的应用潜力，同时也希望能通过理论与实践的结合，推动NLP领域的进一步发展。

参考文献
1. Houlsby, N., et al. (2019). Parameter-efficient transfer learning for NLP.
2. Hu, E., et al. (2021). Lora: Low-rank adaptation of large language models.
3. Devlin, J., et al. (2018). BERT: Pre-training of deep bidirectional transformers for language understanding.
4. McAllester, D. (2003). PAC-Bayesian model averaging.
5. Li, Z., & Liang, P. (2021). Prefix-tuning: Optimizing continuous prompts for generation.
通过这一系列的研究和探索，我们不仅希望推动NLP领域的前沿发展，也期望能够为实际应用提供可行的解决方案。
2024 年 8 月 19 日

标签： AGI

PEDAL：用多样化示例增强贪婪解码的长语言模型

相关工作

自集成策略

提示集成策略

长语言模型推理成本

方法论

多样化示例的提示构建

基于LLM的聚合

实验

结果与分析

算术推理

多项选择题回答

与思维链的比较

多样化提示数量的影响

结论

参考文献

在预训练大型语言模型中，稀疏化是成功的关键

参数高效微调：稀疏化的魅力

从随机初始化到预训练初始化的转变

稀疏增量微调（SIFT）：一种新的方法论

总结与展望

参考文献