标签： AGI

Aquila2技术报告：开创双语大语言模型的新纪元
摘要

本文介绍了Aquila2系列，该系列包含多种参数规模的双语模型，参数量从7亿到70亿不等。Aquila2模型基于一种名为HeuriMentor的创新框架进行训练，该框架提供了实时的模型收敛见解，并增强了训练过程和数据管理的效率。HeuriMentor系统包括自适应训练引擎（ATE）、训练状态监控（TSM）和数据管理单元（DMU），使得对模型训练进度的精确监控成为可能，并能有效优化数据分布，从而提高训练效果。广泛的评估结果表明，Aquila2模型系列在英语和中文基准测试中表现出色。具体而言，Aquila2-34B在量化为Int4时，性能下降幅度极小。此外，我们已将训练代码和模型权重公开，以支持持续的研究和应用开发。

1. 引言

大型语言模型（LLMs）在各种下游任务中展现出卓越的能力，正在推动研究范式的根本转变。数据在模型训练过程中起着至关重要的作用。近年来，研究者们对不同训练数据组合的影响进行了深入探讨，例如OPT、Bloom、Palm和LLaMA等模型。这些模型通常在静态数据集上经过长时间的训练。然而，传统的训练方法往往难以适应数据组成的变化或新数据的整合。鉴于每次训练迭代的资源消耗，增强训练方法对于有效训练LLMs至关重要。

本文介绍的Aquila2系列模型，通过HeuriMentor框架的开发，旨在提高Aquila系列模型的训练效率。HeuriMentor系统由自适应训练引擎（ATE）、训练状态监控（TSM）和数据管理单元（DMU）组成。通过集成这些组件，该系统能够更好地监控模型的训练进度，并能有效调整数据分布，以优化训练效果。

2. Aquila2系列模型

2.1 模型架构

Aquila2系列模型采用了一种新型的分词器设计，设定词汇量为100,000。通过字节对编码（BPE）进行词汇抽取，训练数据由WudaoCorpus和Pile提供，确保英汉数据比例均衡。模型的架构使用了分组查询注意力（GQA）机制，相比传统的多头注意力机制，GQA在推理过程中的效率得到了显著提升。

2.2 训练配置

Aquila2模型的训练配置如下：

模型层数隐藏维度前馈网络头数最大长度学习率批大小
Aquila2-7B 32 4096 11008 32 2048 2e-4 1728
Aquila2-34B 60 6144 24576 48 4096 1.5e-4 1024
Aquila2-70B 80 8192 28672 64 4096 1.5e-4 1032

3. HeuriMentor框架

3.1 自适应训练引擎（ATE）

自适应训练引擎（ATE）旨在通过更新最新数据源的混合，来训练模型并提高后续任务的性能。ATE支持在训练过程中灵活调整集群规模，并且可以在异构设备上进行训练，确保资源的高效利用。

3.2 训练状态监控（TSM）

训练状态监控（TSM）实时跟踪模型的训练状态，通过监控损失、下游性能和模型权重变化，及时调整数据分布。这种动态学习反馈循环使得系统能够在训练过程中不断优化性能。

3.3 数据管理单元（DMU）

DMU负责从互联网和合作伙伴处收集和整理训练数据，确保数据的质量与多样性。通过对数据进行去重和质量过滤，DMU为模型训练提供了可靠的基础。

4. 模型评估

4.1 整体结果

Aquila2系列在多个基准测试中表现优异，尤其是在双语任务上。Aquila2-34B在21个不同数据集上的平均得分高于基线模型，显示出其在处理双语任务时的强大能力。此外，经过4位量化后的Aquila2-34B，其性能仅有微小下降，表明其在计算资源有限的情况下仍能保持优秀表现。

4.2 下游任务性能

在下游任务评估中，Aquila2-34B在大多数任务中表现出色，尤其是在双语句子匹配的BUSTM任务中获得最高得分。HumanEval任务虽然对于所有模型来说都是一个挑战，但Aquila2-34B仍然表现出色，显示出其在模仿人类理解方面的潜力。

5. 结论与未来工作

Aquila2系列的发布标志着双语大语言模型训练的一个新里程碑。未来的研究将集中在混合专家模型和数据质量的提升上，以进一步优化模型性能。通过开源代码、权重和数据集，Aquila2项目为研究人员和开发者提供了丰富的资源，推动双语模型的进一步发展。

参考文献
1. Tom B. Brown et al. “Language models are few-shot learners.” NeurIPS 2020.
2. OpenAI. “Introducing ChatGPT.” 2022.
3. Aakanksha Chowdhery et al. “Palm: Scaling language modeling with pathways.” ArXiv 2022.
4. Hugo Touvron et al. “Llama: Open and efficient foundation language models.” ArXiv 2023.
5. FlagOpen. “Flagscale.” 2023.
通过上述内容，Aquila2技术报告为双语大语言模型的研究与应用提供了深入的见解和实用的参考。
2024 年 8 月 16 日
Aquila2：推动双语大语言模型的前沿
引言

在人工智能领域，大型语言模型（LLM）正在引领一场深刻的变革。这些模型在多种下游任务中表现出色，成为研究与应用的核心。近期，Aquila2系列的推出，为双语处理提供了新的解决方案。该系列模型包含7亿、34亿和70亿参数的多种版本，旨在通过创新的HeuriMentor框架优化训练效率和数据管理。

Aquila2系列

模型架构

Aquila2模型采用了一种新的分词器设计，词汇量设定为100,000，使用字节对编码（BPE）进行词汇抽取。训练数据来源于WudaoCorpus和Pile，确保英语和中文数据的均衡分布。此外，模型采用了分组查询注意力（GQA）机制，显著提高了推理过程中的效率。

训练配置

Aquila2系列的训练配置如下表所示：

模型层数隐藏维度前馈网络头数最大长度学习率批大小
Aquila2-7B 32 4096 11008 32 2048 2e-4 1728
Aquila2-34B 60 6144 24576 48 4096 1.5e-4 1024
Aquila2-70B 80 8192 28672 64 4096 1.5e-4 1032

这些配置的设计旨在充分利用GPU资源，确保高效的训练过程。

HeuriMentor框架

自适应训练引擎（ATE）

HeuriMentor框架的核心组件之一是自适应训练引擎（ATE），其设计目的是通过动态更新数据混合，提升模型在后续任务中的表现。ATE支持在训练过程中灵活调整集群规模，并能够在异构设备上进行训练，确保高效的资源利用。

训练状态监控（TSM）

训练状态监控（TSM）实时跟踪模型的训练状态，通过监控损失、下游性能和模型权重变化，及时调整数据分布。这种动态学习反馈循环使得系统能够在训练过程中不断优化性能。

数据管理单元（DMU）

DMU负责从互联网和合作伙伴处收集和整理训练数据，确保数据的质量与多样性。通过对数据进行去重和质量过滤，DMU为模型训练提供了可靠的基础。

模型评估

Aquila2系列在多个基准测试中表现优异，尤其是在双语任务上。Aquila2-34B在21个不同数据集上的平均得分高于基线模型，显示出其在处理双语任务时的强大能力。此外，经过4位量化后的Aquila2-34B，其性能仅有微小下降，表明其在计算资源有限的情况下仍能保持优秀表现。

未来工作与结论

Aquila2系列的发布，标志着双语大语言模型训练的一个新里程碑。未来的研究将集中在混合专家模型和数据质量的提升上，以进一步优化模型性能。通过开源代码、权重和数据集，Aquila2项目为研究人员和开发者提供了丰富的资源，推动双语模型的进一步发展。

参考文献
1. Tom B. Brown et al. “Language models are few-shot learners.” NeurIPS 2020.
2. OpenAI. “Introducing ChatGPT.” 2022.
3. Aakanksha Chowdhery et al. “Palm: Scaling language modeling with pathways.” ArXiv 2022.
4. Hugo Touvron et al. “Llama: Open and efficient foundation language models.” ArXiv 2023.
5. FlagOpen. “Flagscale.” 2023.
通过上述内容，我们对Aquila2系列的设计思路、训练流程及其在双语任务中的表现有了全面的了解。这些创新为未来的语言模型研究奠定了坚实的基础。
2024 年 8 月 16 日

模型	层数	隐藏维度	前馈网络	头数	最大长度	学习率	批大小
Aquila2-7B	32	4096	11008	32	2048	2e-4	1728
Aquila2-34B	60	6144	24576	48	4096	1.5e-4	1024
Aquila2-70B	80	8192	28672	64	4096	1.5e-4	1032

标签： AGI

Aquila2技术报告：开创双语大语言模型的新纪元

摘要

1. 引言

2. Aquila2系列模型

2.1 模型架构

2.2 训练配置

3. HeuriMentor框架

3.1 自适应训练引擎（ATE）

3.2 训练状态监控（TSM）

3.3 数据管理单元（DMU）

4. 模型评估

4.1 整体结果

4.2 下游任务性能

5. 结论与未来工作

参考文献

Aquila2：推动双语大语言模型的前沿

引言

Aquila2系列

模型架构

训练配置

HeuriMentor框架

自适应训练引擎（ATE）

训练状态监控（TSM）

数据管理单元（DMU）

模型评估

未来工作与结论

参考文献