博客

Monarch Mixer: 重新审视BERT，无需注意力机制或多层感知器
引言：
近年来，Transformer模型在自然语言处理和计算机视觉等领域取得了巨大成功。然而，我们是否只有Transformer这一种模型可以达到如此惊人的性能呢？这是一个我们一直在思考的问题。为了回答这个问题，斯坦福大学的研究人员提出了一种新的架构——Monarch Mixer（M2），它在序列长度和模型维度上都是次二次的，同时在性能上能够与Transformer媲美甚至超越。

Monarch Mixer架构：
Monarch Mixer的基本思想是用Monarch矩阵替换Transformer的主要组件。Monarch矩阵是一类结构化矩阵，它广义上推广了快速傅里叶变换（FFT），具有次二次的计算复杂度，同时在硬件上更加高效和表达能力强。Monarch Mixer使用由Monarch矩阵构建的层来实现序列内的混合（类似Transformer中的注意力机制）和模型维度上的混合（类似Transformer中的多层感知器）。与MLP Mixer和ConvMixer等工作类似，Monarch Mixer将所有组件替换为单一的原语，从而实现了全面的次二次架构。

Monarch Mixer与BERT的结合：
作为对这一思想的首次验证，研究人员选择了BERT作为目标模型。他们将BERT中的注意力机制替换为受到注意力自由模型的启发，并用一些简单的块对角矩阵替换了MLP。所有这些操作都可以用Monarch矩阵来实现。此外，他们还对模型进行了一些微调，如添加额外的卷积连接和在微调过程中使用平均池化等。通过这些改进，他们成功地构建了Monarch Mixer BERT（M2-BERT）模型。

M2-BERT的性能：
研究人员对M2-BERT模型进行了评估，并与标准的BERT模型进行了比较。令人惊讶的是，即使在参数数量较少的情况下，M2-BERT模型的性能也相当不错。例如，M2-BERT-base模型（80M参数）在GLUE任务上的平均得分超过了标准BERT-base模型（110M参数）。此外，通过参数匹配，M2-BERT-base模型的性能还有进一步提升。

长序列的优势：
Monarch Mixer架构的一个潜在优势是在处理长序列时的速度和可扩展性。由于M2在模型维度上是次二次的，因此可以减少计算量。而序列混合器在序列长度上也是次二次的，这意味着它具有处理更长序列的潜力。

结论：
Monarch Mixer是一种新颖的架构，它通过使用次二次的Monarch矩阵替换Transformer的组件，实现了与Transformer相媲美甚至超越的性能。尽管目前还处于早期阶段，但M2-BERT模型已经展现出了很大的潜力。未来的研究将进一步探索Monarch Mixer架构的优化和应用。

Learn more:
2023 年 11 月 23 日
QLoRA: 高效微调大型语言模型的利器
引言：
在机器学习领域，大型语言模型（LLM）是当前热门话题。想象一下，你是一名机器学习工程师，你的公司拥有GPU和开源的LLM，比如LLAMA/Falcon。你的任务是为每个客户构建工具，每个客户都有独特的需求。你为每个客户微调模型，每个人都满意。但是当你有成千上万个客户时会发生什么？部署成千上万个对GPU需求很高的LLM是不可行的，除非你有大量的GPU供应。你需要一种策略，可以在不耗尽资金或超负荷存储的情况下为每个客户微调模型。这就是QLoRA和LoRA发挥作用的地方。

QLoRA和LoRA的背景：
QLoRA和LoRA是一种高效微调大型语言模型的技术。在微调过程中，我们通常需要调整模型的权重参数，以适应特定的任务。传统的微调方法需要逐步更新权重参数，这会导致计算和存储开销巨大。而QLoRA和LoRA则提供了一种更高效的方法，可以将微调过程中的权重变化存储起来，并在需要时一次性更新模型的权重，从而节省了计算和存储资源。

QLoRA和LoRA的工作原理：
- LoRA（Low-Rank Adapters）：LoRA的核心思想是将可调整的低秩矩阵注入到Transformer架构的每一层中。这些低秩矩阵充当适配器的角色，使得模型可以根据特定任务进行调整和专门化，同时最大限度地减少额外的参数数量。
- QLoRA（Quantized Low-Rank Adapters）：QLoRA是LoRA的扩展，它在微调过程中引入了量化技术，以增强参数的效率。QLoRA利用LoRA的原理，并引入了4位NormalFloat（NF4）量化和双重量化技术，进一步减少了存储和计算资源的使用。
QLoRA和LoRA的优势：
- 减少参数开销：QLoRA和LoRA通过使用低秩矩阵而不是微调所有参数，显著减少了可调参数的数量，使得模型在存储和计算上更加高效。
- 高效切换任务：QLoRA和LoRA允许共享预训练模型用于多个任务，减少了维护独立实例的需求。这样在部署过程中可以快速无缝地切换任务，减少了存储和切换成本。
- 无推理延迟：QLoRA和LoRA的线性设计确保与完全微调的模型相比没有额外的推理延迟，适用于实时应用。
QLoRA和LoRA的应用前景：
QLoRA和LoRA为微调大型语言模型提供了高效的解决方案，可以在保证任务性能的同时减少可调参数的数量。这些技术在自然语言处理领域具有广泛的应用前景，可以帮助我们更好地利用大型语言模型的知识和能力。

Learn more:
2023 年 11 月 23 日

博客

Monarch Mixer: 重新审视BERT，无需注意力机制或多层感知器

QLoRA: 高效微调大型语言模型的利器