Aquila2技术报告：开创双语大语言模型的新纪元

摘要

本文介绍了Aquila2系列，该系列包含多种参数规模的双语模型，参数量从7亿到70亿不等。Aquila2模型基于一种名为HeuriMentor的创新框架进行训练，该框架提供了实时的模型收敛见解，并增强了训练过程和数据管理的效率。HeuriMentor系统包括自适应训练引擎（ATE）、训练状态监控（TSM）和数据管理单元（DMU），使得对模型训练进度的精确监控成为可能，并能有效优化数据分布，从而提高训练效果。广泛的评估结果表明，Aquila2模型系列在英语和中文基准测试中表现出色。具体而言，Aquila2-34B在量化为Int4时，性能下降幅度极小。此外，我们已将训练代码和模型权重公开，以支持持续的研究和应用开发。

友情链接：借一步背多分 ACEJoy

1. 引言

大型语言模型（LLMs）在各种下游任务中展现出卓越的能力，正在推动研究范式的根本转变。数据在模型训练过程中起着至关重要的作用。近年来，研究者们对不同训练数据组合的影响进行了深入探讨，例如OPT、Bloom、Palm和LLaMA等模型。这些模型通常在静态数据集上经过长时间的训练。然而，传统的训练方法往往难以适应数据组成的变化或新数据的整合。鉴于每次训练迭代的资源消耗，增强训练方法对于有效训练LLMs至关重要。

本文介绍的Aquila2系列模型，通过HeuriMentor框架的开发，旨在提高Aquila系列模型的训练效率。HeuriMentor系统由自适应训练引擎（ATE）、训练状态监控（TSM）和数据管理单元（DMU）组成。通过集成这些组件，该系统能够更好地监控模型的训练进度，并能有效调整数据分布，以优化训练效果。

2. Aquila2系列模型

2.1 模型架构

Aquila2系列模型采用了一种新型的分词器设计，设定词汇量为100,000。通过字节对编码（BPE）进行词汇抽取，训练数据由WudaoCorpus和Pile提供，确保英汉数据比例均衡。模型的架构使用了分组查询注意力（GQA）机制，相比传统的多头注意力机制，GQA在推理过程中的效率得到了显著提升。

2.2 训练配置

Aquila2模型的训练配置如下：

模型	层数	隐藏维度	前馈网络	头数	最大长度	学习率	批大小
Aquila2-7B	32	4096	11008	32	2048	2e-4	1728
Aquila2-34B	60	6144	24576	48	4096	1.5e-4	1024
Aquila2-70B	80	8192	28672	64	4096	1.5e-4	1032

3. HeuriMentor框架

3.1 自适应训练引擎（ATE）

自适应训练引擎（ATE）旨在通过更新最新数据源的混合，来训练模型并提高后续任务的性能。ATE支持在训练过程中灵活调整集群规模，并且可以在异构设备上进行训练，确保资源的高效利用。

3.2 训练状态监控（TSM）

训练状态监控（TSM）实时跟踪模型的训练状态，通过监控损失、下游性能和模型权重变化，及时调整数据分布。这种动态学习反馈循环使得系统能够在训练过程中不断优化性能。

3.3 数据管理单元（DMU）

DMU负责从互联网和合作伙伴处收集和整理训练数据，确保数据的质量与多样性。通过对数据进行去重和质量过滤，DMU为模型训练提供了可靠的基础。

4. 模型评估

4.1 整体结果

Aquila2系列在多个基准测试中表现优异，尤其是在双语任务上。Aquila2-34B在21个不同数据集上的平均得分高于基线模型，显示出其在处理双语任务时的强大能力。此外，经过4位量化后的Aquila2-34B，其性能仅有微小下降，表明其在计算资源有限的情况下仍能保持优秀表现。

4.2 下游任务性能

在下游任务评估中，Aquila2-34B在大多数任务中表现出色，尤其是在双语句子匹配的BUSTM任务中获得最高得分。HumanEval任务虽然对于所有模型来说都是一个挑战，但Aquila2-34B仍然表现出色，显示出其在模仿人类理解方面的潜力。

5. 结论与未来工作

Aquila2系列的发布标志着双语大语言模型训练的一个新里程碑。未来的研究将集中在混合专家模型和数据质量的提升上，以进一步优化模型性能。通过开源代码、权重和数据集，Aquila2项目为研究人员和开发者提供了丰富的资源，推动双语模型的进一步发展。

参考文献

Tom B. Brown et al. “Language models are few-shot learners.” NeurIPS 2020.
OpenAI. “Introducing ChatGPT.” 2022.
Aakanksha Chowdhery et al. “Palm: Scaling language modeling with pathways.” ArXiv 2022.
Hugo Touvron et al. “Llama: Open and efficient foundation language models.” ArXiv 2023.
FlagOpen. “Flagscale.” 2023.

通过上述内容，Aquila2技术报告为双语大语言模型的研究与应用提供了深入的见解和实用的参考。

摘要