标签： AGI

Sparsity-Accelerated Training for Large Language Models
问题背景

大型语言模型（LLMs）在自然语言处理（NLP）任务中表现出色，但是训练这些模型所需的时间和计算资源成本较高。为了提高模型性能和遵循人类指令的能力，这些模型通常需要进行额外的训练，如持续预训练和监督式微调。然而，由于模型参数众多，这些额外训练过程的成本非常高昂。

提出的解决方案：稀疏加速训练（Sparsity-Accelerated Training, SAT）

为了解决大型语言模型训练成本高昂的问题，研究人员提出了一种名为”Sparsity-Accelerated Training”（SAT）的框架。SAT的核心思想是利用预训练LLMs中的结构稀疏性来加速额外的训练过程。通过观察前向迭代中激活的神经元的稀疏性，SAT框架可以确定哪些神经元是不活跃的，从而排除这些不活跃的神经元，减少计算量，加快训练速度。

实现方法：神经元重要性评估和选择

为了实现SAT框架，研究人员首先需要评估每个神经元的重要性，并选择重要的神经元进行训练。评估神经元重要性的方法是观察前向迭代中激活的神经元的稀疏性，并计算每个神经元的重要性得分。通过选择重要性得分高的神经元，并在训练过程中仅更新这些神经元，可以减少计算量，加快训练速度。

SAT框架在Transformer架构中的应用

SAT框架主要针对基于Transformer架构的LLMs进行研究。在Transformer架构中，SAT框架可以应用于多头注意力（MHA）和多层感知机（MLP）模块。对于MHA，SAT框架选择重要性得分高的头部进行优化；对于MLP，SAT框架选择重要性得分高的通道进行优化。通过稀疏化这些组件中的神经元，SAT框架可以减少计算量，加快训练速度。

梯度遗漏率调度器（LORS）的应用

为了缓解剪枝神经元可能导致的过拟合问题，研究人员在SAT框架中引入了梯度遗漏率调度器（Ladder Omission Rate Scheduler, LORS）。LORS将训练过程分为两个阶段：第一阶段使用恒定的遗漏率进行稀疏训练，第二阶段逐渐降低遗漏率，使模型逐渐变得更密集，直到完全恢复为密集模型。LORS的引入可以提高训练的稳定性和鲁棒性。

实验验证和结果

研究人员在Llama-2模型上进行了实验，验证了SAT框架在持续预训练和监督式微调方面的性能。实验结果表明，SAT在这些任务中取得了与标准训练相媲美甚至更好的性能，同时显著加快了训练速度。此外，研究人员还对SAT框架的效率进行了分析，包括吞吐量、训练时间、内存消耗和浮点运算（FLOPs）等指标。实验结果显示，SAT框架能够在减少计算量的同时保持高效。

相关研究和未来展望

在加速大型语言模型训练的领域，已经有一些相关研究工作，如变换器剪枝、稀疏微调和参数高效微调等。这些研究为SAT框架的提出提供了理论和技术基础。然而，仍然有一些潜在的探索方向可以进一步研究，例如探索更大规模和多样化的模型结构、更多的神经元重要性度量方法、计算资源和环境影响等。此外，还可以考虑与其他模型优化技术的结合、深入分析稀疏性对模型性能的影响以及实际部署和应用等方面的研究。

结论

Sparsity-Accelerated Training（SAT）框架提出了一种利用预训练LLMs中的结构稀疏性来加速大型语言模型训练的方法。通过评估神经元重要性并选择重要的神经元进行训练，SAT框架能够减少计算量、加快训练速度，并在保持或提高模型性能的同时提高训练效率。SAT框架为大型语言模型的训练提供了一种简单、硬件无关且易于部署的解决方案。

参考文献：
- Da Ma, Lu Chen, Pengyu Wang, Hongshen Xu, Hanqi Li, Liangtai Sun, Su Zhu, Shuai Fan, Kai Yu. “Sparsity-Accelerated Training for Large Language Models.” 2024.
2024 年 6 月 5 日
大型语言模型与人类大脑：相似性评估的误区

近年来，大型语言模型（LLMs）在自然语言处理领域取得了突破性的进展。然而，人们开始质疑这些模型是否真的像人类大脑一样处理语言。为了评估这种相似性，研究者们通常使用“大脑得分”（brain scores）来衡量模型预测神经信号的能力。但是，这种方法真的有效吗？

误区一：大脑得分的局限性

研究者们发现，当前使用的随机训练-测试分割方法可能会夸大模型的预测能力。例如，在一个 fMRI 数据集上，一个简单的特征（编码时间自相关性）不仅超过了 LLMs 的表现，还解释了 LLMs 解释的大部分神经方差（Feghhi et al., 2024）。这意味着，当前的评估方法可能会忽视模型预测能力的局限性。

误区二：未训练模型的高大脑得分

研究者们还发现，未训练的 LLMs 也可以获得高的大脑得分。但是，这并不是因为它们捕捉到了额外的神经方差，而是因为它们简单地编码了句子长度和句子位置这两个特征（Feghhi et al., 2024）。这表明，未训练模型的高大脑得分可能是由于简单特征的影响，而不是因为它们真的像人类大脑一样处理语言。

误区三：训练模型的 brain scores

对于训练后的 LLMs，大部分大脑得分可以由句子长度、位置和静态词嵌入解释，而词义消歧和句法表示只解释了一小部分神经方差（Feghhi et al., 2024）。这意味着，训练模型的 brain scores 可能主要是由于简单特征的影响，而不是因为它们真的捕捉到了语言处理的核心方面。

结论

综上所述，当前评估大型语言模型与人类大脑相似性的方法可能存在误区。我们需要更好地理解 LLMs 是如何映射到神经信号的，并开发更加准确的评估方法。只有这样，我们才能真正地评估 LLMs 与人类大脑的相似性。

参考文献

Feghhi, E., Hadidi, N., Song, B., Blank, I. A., & Kao, J. C. (2024). What Are Large Language Models Mapping to in the Brain? A Case Against Over-Reliance on Brain Scores.

2024 年 6 月 5 日

标签： AGI

Sparsity-Accelerated Training for Large Language Models

问题背景

提出的解决方案：稀疏加速训练（Sparsity-Accelerated Training, SAT）

实现方法：神经元重要性评估和选择

SAT框架在Transformer架构中的应用

梯度遗漏率调度器（LORS）的应用

实验验证和结果

相关研究和未来展望

结论

大型语言模型与人类大脑：相似性评估的误区

误区一：大脑得分的局限性

误区二：未训练模型的高大脑得分

误区三：训练模型的 brain scores

结论