月度归档： 2024 年 8 月

Aquila2：推动双语大语言模型的前沿
引言

在人工智能领域，大型语言模型（LLM）正在引领一场深刻的变革。这些模型在多种下游任务中表现出色，成为研究与应用的核心。近期，Aquila2系列的推出，为双语处理提供了新的解决方案。该系列模型包含7亿、34亿和70亿参数的多种版本，旨在通过创新的HeuriMentor框架优化训练效率和数据管理。

Aquila2系列

模型架构

Aquila2模型采用了一种新的分词器设计，词汇量设定为100,000，使用字节对编码（BPE）进行词汇抽取。训练数据来源于WudaoCorpus和Pile，确保英语和中文数据的均衡分布。此外，模型采用了分组查询注意力（GQA）机制，显著提高了推理过程中的效率。

训练配置

Aquila2系列的训练配置如下表所示：

模型层数隐藏维度前馈网络头数最大长度学习率批大小
Aquila2-7B 32 4096 11008 32 2048 2e-4 1728
Aquila2-34B 60 6144 24576 48 4096 1.5e-4 1024
Aquila2-70B 80 8192 28672 64 4096 1.5e-4 1032

这些配置的设计旨在充分利用GPU资源，确保高效的训练过程。

HeuriMentor框架

自适应训练引擎（ATE）

HeuriMentor框架的核心组件之一是自适应训练引擎（ATE），其设计目的是通过动态更新数据混合，提升模型在后续任务中的表现。ATE支持在训练过程中灵活调整集群规模，并能够在异构设备上进行训练，确保高效的资源利用。

训练状态监控（TSM）

训练状态监控（TSM）实时跟踪模型的训练状态，通过监控损失、下游性能和模型权重变化，及时调整数据分布。这种动态学习反馈循环使得系统能够在训练过程中不断优化性能。

数据管理单元（DMU）

DMU负责从互联网和合作伙伴处收集和整理训练数据，确保数据的质量与多样性。通过对数据进行去重和质量过滤，DMU为模型训练提供了可靠的基础。

模型评估

Aquila2系列在多个基准测试中表现优异，尤其是在双语任务上。Aquila2-34B在21个不同数据集上的平均得分高于基线模型，显示出其在处理双语任务时的强大能力。此外，经过4位量化后的Aquila2-34B，其性能仅有微小下降，表明其在计算资源有限的情况下仍能保持优秀表现。

未来工作与结论

Aquila2系列的发布，标志着双语大语言模型训练的一个新里程碑。未来的研究将集中在混合专家模型和数据质量的提升上，以进一步优化模型性能。通过开源代码、权重和数据集，Aquila2项目为研究人员和开发者提供了丰富的资源，推动双语模型的进一步发展。

参考文献
1. Tom B. Brown et al. “Language models are few-shot learners.” NeurIPS 2020.
2. OpenAI. “Introducing ChatGPT.” 2022.
3. Aakanksha Chowdhery et al. “Palm: Scaling language modeling with pathways.” ArXiv 2022.
4. Hugo Touvron et al. “Llama: Open and efficient foundation language models.” ArXiv 2023.
5. FlagOpen. “Flagscale.” 2023.
通过上述内容，我们对Aquila2系列的设计思路、训练流程及其在双语任务中的表现有了全面的了解。这些创新为未来的语言模型研究奠定了坚实的基础。
2024 年 8 月 16 日
认识超叠知识：揭示大语言模型终身知识编辑的失败
引言

在现代人工智能领域，大语言模型（LLMs）因其卓越的语言理解和生成能力而广受欢迎。然而，这些模型在面对过时或不准确的知识时，往往无能为力（Radford et al. 2019）。虽然重新训练这些模型以更新知识的成本极高，知识编辑（De Cao et al. 2021）因此应运而生，旨在通过直接更新模型的内部参数来实现特定知识的修改。

然而，当前的知识编辑方法在终身编辑的可扩展性方面存在局限性（Huang et al. 2023）。终身编辑要求在模型生命周期内进行连续的知识编辑和性能监控，但实际应用中，不同的编辑方法（如ROME和MEMIT）在经历数十次或数百次编辑后，模型性能会出现严重下降（Hu et al. 2024）。本研究将探讨知识编辑在终身编辑中失败的根本原因。

知识编辑与超叠现象

知识编辑的目标是修改语言模型的知识，使其在面临相关输入时的输出反映出更新后的状态（De Cao et al. 2021）。然而，知识超叠的现象在这些模型中普遍存在，导致了编辑过程中的干扰（Elhage et al. 2022b）。超叠指的是神经网络试图表示超出其可用维度的特征时所采用的一种策略，在这种情况下，不同特征的表示会近乎正交（Figure 2）。

本研究的核心发现是，知识超叠是导致终身知识编辑失败的根本原因。通过严格的数学推导，我们发现在从单次编辑扩展到终身编辑的过程中，最终解决方案中引入了一个干扰项，这表明编辑知识可能会影响到不相关的知识（Figure 1c）。我们进一步分析了该干扰项，发现它与知识表示之间的超叠现象密切相关。

数学推导与知识超叠

我们从线性关联记忆的闭式解出发，扩展到终身编辑场景（Meng et al. 2022a）。通过数学推导，我们得出以下公式：

$W_n =\begin{cases}W_0, & n=0 \W_{n-1} + \Lambda_n (C^{-1} k_{e_n})^{T}, & n \geq 1\end{cases}$

这里， $W_n$ 表示经过第 $n$ 次编辑后的参数矩阵，而 $C=K K^{T}$ 是协方差矩阵。通过对干扰项的分析，我们发现，若知识表示完全正交，干扰项将消失，允许无损的知识编辑。

在我们的实验中，我们针对多个语言模型（如GPT-2、Llama-2、Pythia等）进行了知识超叠的广泛研究，发现这种超叠现象在所有层中普遍存在，其特征表现为高峰度、零均值和重尾分布（Figure LABEL:fig:kde_superposition）。这意味着，尽管模型试图以正交方式存储不同的知识，但由于容量限制，最终采用了超叠策略。

实验与结果分析

在语言模型的不同层中，我们计算了知识表示之间的角度分布，结果显示，在去除对角线元素后，P矩阵的非零元素表明知识超叠的存在。随着模型规模的增加，P矩阵逐渐“清晰”，表明更大的模型能够以较弱的超叠存储知识，减少了由于超叠引起的干扰。

具体而言，我们观察到在GPT-2和GPT-J的第一层中，某些知识对（如“Vladimir Mayakovsky”和“Vladimir Bukovsky”）之间的相似性极高，导致在编辑时，模型对这些知识的操作几乎是相同的。这一现象表明，模型在处理这些知识对时存在密切的干扰关系，进一步验证了知识超叠的存在。

结论

通过理论与实证相结合的方式，本文揭示了知识超叠在大语言模型中的普遍性，并解释了其对终身知识编辑的影响。我们的研究结果表明，知识超叠是导致终身编辑失败的根本原因。因此，未来的研究方向应集中在优化模型架构和知识编辑算法，以减少超叠现象的影响，从而实现真正的无损知识编辑。

参考文献
1. Radford, A., Wu, J., Child, R., et al. (2019). Language models are unsupervised multitask learners. OpenAI blog, 1(8): 9.
2. De Cao, N., et al. (2021). Editing Factual Knowledge in Language Models. In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, 6491–6506.
3. Elhage, N., Hume, T., Olsson, C., et al. (2022b). Toy models of superposition. arXiv preprint arXiv:2209.10652.
4. Meng, K., Bau, D., Andonian, A., et al. (2022a). Locating and editing factual associations in GPT. Advances in Neural Information Processing Systems, 35: 17359–17372.
5. Hu, C., Cao, P., Chen, Y., et al. (2024). Wilke: Wise-layer knowledge editor for lifelong knowledge editing. arXiv preprint arXiv:2402.10987.
2024 年 8 月 16 日

模型	层数	隐藏维度	前馈网络	头数	最大长度	学习率	批大小
Aquila2-7B	32	4096	11008	32	2048	2e-4	1728
Aquila2-34B	60	6144	24576	48	4096	1.5e-4	1024
Aquila2-70B	80	8192	28672	64	4096	1.5e-4	1032

月度归档： 2024 年 8 月

Aquila2：推动双语大语言模型的前沿

引言

Aquila2系列

模型架构

训练配置

HeuriMentor框架

自适应训练引擎（ATE）

训练状态监控（TSM）

数据管理单元（DMU）

模型评估

未来工作与结论

参考文献

认识超叠知识：揭示大语言模型终身知识编辑的失败

引言

知识编辑与超叠现象

数学推导与知识超叠

实验与结果分析

结论

参考文献