标签： AGI

大型语言模型的无限对话：StreamingLLM 如何实现高效流式解码
大型语言模型（LLM）已经成为自然语言处理领域不可或缺的一部分，但它们在处理长文本时却面临着巨大的挑战。传统的 LLM 在解码过程中需要缓存所有先前解码的 token 的键值对（KV），这会导致内存占用量随着对话长度的增加而线性增长，并且模型的性能也会受到限制。

StreamingLLM 应运而生，它是一种高效的框架，可以使 LLM 在不进行任何微调的情况下，将有限长度的注意力窗口推广到无限序列长度，从而实现高效的流式解码。

窗口注意力的瓶颈：为什么需要 StreamingLLM？

为了解决传统 LLM 解码过程中的内存占用和性能下降问题，研究人员提出了窗口注意力机制，它只缓存最近的 KV，从而减少了内存占用。然而，当文本长度超过缓存大小时，窗口注意力机制就会失效。

StreamingLLM 的核心思想是利用注意力汇聚（Attention Sink）现象。研究人员发现，即使一些初始 token 在语义上并不重要，但模型仍然会对它们保持很强的注意力。这种现象被称为注意力汇聚。

Attention Sink 的发现：解开窗口注意力的秘密

通过分析 LLM 在处理长文本时的注意力机制，研究人员发现了一个有趣的现象：模型会将大量的注意力集中在初始 token 上，即使这些 token 在语义上并不重要。他们将这种现象称为“注意力汇聚”。

为什么会出现注意力汇聚？ 这是因为 Softmax 函数的特性，它要求所有上下文 token 的注意力分数之和为 1。即使当前查询在许多之前的 token 中没有强匹配，模型仍然需要将这些不必要的注意力值分配到某个地方，以使它们加起来为 1。

初始 token 成为注意力汇聚的原因也很直观： 由于自回归语言模型的特性，初始 token 对所有后续 token 都可见，而后续 token 只能对有限的后续 token 可见。因此，初始 token 更容易被训练成注意力汇聚，从而捕获不必要的注意力。

StreamingLLM 的工作原理：高效利用注意力汇聚

StreamingLLM 框架基于以下几个关键原则：
- 保留注意力汇聚： 保留初始 token 的 KV，以弥补窗口注意力机制的不足。
- 滑动窗口： 使用滑动窗口机制，只缓存最近的 token 和注意力汇聚，从而减少内存占用。
- 预训练优化： 在预训练过程中添加一个占位符 token 作为专门的注意力汇聚，进一步提高流式部署的性能。
StreamingLLM 的优势：高效、稳定、无需微调
- 高效的流式解码： StreamingLLM 可以实现高效的流式解码，即使在处理非常长的文本时，也能保持良好的性能。
- 无限序列长度： StreamingLLM 可以处理无限长度的文本，突破了传统 LLM 的限制。
- 无需微调： StreamingLLM 不需要对 LLM 进行任何微调，就可以实现高效的流式解码。
实验结果：实证验证 StreamingLLM 的有效性

研究人员对多个流行的 LLM 家族（包括 Llama-2、MPT、Falcon 和 Pythia）进行了实验，结果表明：
- StreamingLLM 在处理长文本时，其性能与滑动窗口重新计算基线相当，而传统的窗口注意力机制则会失效。
- StreamingLLM 可以处理超过 400 万个 token 的文本，并且在处理超长文本时仍然保持稳定。
- 在预训练过程中添加一个专门的注意力汇聚 token 可以进一步提高 StreamingLLM 的性能。
StreamingLLM 的应用场景：无限对话、实时翻译、文本摘要

StreamingLLM 在许多场景中都有广泛的应用，例如：
- 多轮对话： StreamingLLM 可以用于构建高效的聊天机器人，实现流畅的对话交互。
- 文本摘要： StreamingLLM 可以用于对长文本进行摘要，并保留关键信息。
- 实时翻译： StreamingLLM 可以用于实时翻译，提供流畅的翻译体验。
未来展望：更强大、更智能的流式解码

StreamingLLM 的出现为 LLM 的流式应用开辟了新的可能性。未来，研究人员将继续探索如何进一步优化 StreamingLLM 框架，使其在更多场景中发挥更大的作用。

https://arxiv.org/pdf/2309.17453
2024 年 6 月 16 日
大模型推理加速新突破：FlashDecoding++
大型语言模型 (LLM) 正在改变世界，从生成文本到翻译语言，再到编写代码，LLM 的应用范围越来越广。然而，LLM 的推理速度一直是制约其应用的关键因素。为了解决这个问题，研究人员一直在探索各种方法来加速 LLM 推理。

本文将介绍一篇名为 “FlashDecoding++: Faster Large Language Model Inference on GPUs” 的论文，该论文提出了一种新的 LLM 推理加速技术，可以在 GPU 上显著提高推理速度。

LLM 推理加速的挑战

加速 LLM 推理面临着三大挑战：
1. 同步部分 Softmax 更新： Softmax 操作需要对每个部分 Softmax 结果进行同步更新，这导致了 LLM 中注意力计算的约 20% 的开销。
2. 扁平 GEMM 的计算利用率低下： LLM 推理中执行 GEMM 的矩阵形状是扁平的，导致计算利用率低下，在之前的设计中，填充零后会导致超过 50% 的性能损失。
3. 静态数据流导致的性能损失： LLM 中的内核性能取决于不同的输入数据特征、硬件配置等。单一且静态的数据流会导致 LLM 推理中不同形状的 GEMM 出现 50.25% 的性能损失。
FlashDecoding++ 的解决方案

FlashDecoding++ 针对上述挑战提出了以下解决方案：
1. 异步 Softmax 与统一最大值： FlashDecoding++ 引入了一种统一最大值技术，用于不同的部分 Softmax 计算，从而避免同步。
2. 双缓冲的扁平 GEMM 优化： FlashDecoding++ 指出不同形状的扁平 GEMM 面临着不同的瓶颈。然后，引入了双缓冲等技术。
3. 硬件资源自适应的启发式数据流： FlashDecoding++ 使用不同的硬件资源，考虑输入动态，启发式地优化数据流。
性能提升

FlashDecoding++ 的优化策略使其在 NVIDIA 和 AMD GPU 上都取得了显著的性能提升，与 Hugging Face 实现相比，分别实现了高达 4.86 倍和 2.18 倍的加速。与主流 LLM 上最先进的 LLM 推理引擎相比，FlashDecoding++ 的平均加速比为 1.37 倍。

总结

FlashDecoding++ 提出了一套全面的 LLM 推理加速解决方案，有效地解决了 LLM 推理中的三大挑战。其在主流 LLM 和硬件平台上的出色表现，为 LLM 的广泛应用提供了强有力的支持。

参考文献
- [2311.01282] FlashDecoding++: Faster Large Language Model Inference on GPUs
- Stanford CRFM
- GitHub – opengear-project/GEAR: GEAR: An Efficient KV Cache Compression Recipefor Near-Lossless Generative Inference of LLM
- DistServe/distserve at main · LLMServe/DistServe · GitHub
注：本文仅对 FlashDecoding++ 论文进行了简要介绍，更多细节请参考原文。

在GPU上推理大规模语言模型（LLM）的性能至关重要，而FlashDecoding++是一款针对LLM推理的快速引擎，通过解决同步部分softmax更新、未充分利用的扁平化GEMM计算和静态数据流等挑战，实现了显着的推理加速效果。

解决同步部分softmax更新的挑战：
FlashDecoding++引入了异步softmax和统一最大值的技术，避免了在计算部分softmax结果时需要同步更新的问题。每个部分softmax结果可以独立进行处理，无需进行同步操作，从而减少了计算中的开销。

解决未充分利用的扁平化GEMM计算的挑战：
FlashDecoding++通过双缓冲技术对扁平化GEMM计算进行了优化，隐藏了内存访问延迟，提高了计算利用率。它在共享内存中分配了两个独立的缓冲区，一个缓冲区用于进行GEMM计算，而另一个缓冲区则用于加载下一个GEMM操作所需的数据。通过这种方式，计算和内存访问可以同时进行，实现了计算与存储的重叠。

解决静态数据流的挑战：
FlashDecoding++采用了启发式数据流和硬件资源适应的方法。它根据输入动态和硬件配置，在不同的线性工作负载下动态优化数据流，选择最佳的实现方式。通过根据不同工作负载的特点进行灵活调整，FlashDecoding++实现了最佳的推理性能。

性能评估：
FlashDecoding++在多个硬件平台上进行了性能评估，包括NVIDIA和AMD的GPU。与Hugging Face、vLLM、DeepSpeed、TensorRT-LLM、OpenPPL和FlashDecoding等LLM推理引擎进行了比较。结果表明，FlashDecoding++相对于这些基线引擎实现了显着的加速效果，提供了高达4.86倍的推理速度提升。
2024 年 6 月 16 日

标签： AGI

大型语言模型的无限对话：StreamingLLM 如何实现高效流式解码

窗口注意力的瓶颈：为什么需要 StreamingLLM？

Attention Sink 的发现：解开窗口注意力的秘密

StreamingLLM 的工作原理：高效利用注意力汇聚

StreamingLLM 的优势：高效、稳定、无需微调

实验结果：实证验证 StreamingLLM 的有效性

StreamingLLM 的应用场景：无限对话、实时翻译、文本摘要

未来展望：更强大、更智能的流式解码

大模型推理加速新突破：FlashDecoding++

LLM 推理加速的挑战

FlashDecoding++ 的解决方案

性能提升

总结

参考文献