标签： AI

前向-前向（FF）算法：一种全新的深度学习方法
引言

在NeurIPS 2022大会上，Geoffrey Hinton提出了一种名为前向-前向（Forward-Forward，简称FF）算法的新型神经网络学习方法[1]。这种算法已经在一些小问题上展示了其潜力，并引起了广泛关注。本文将详细介绍FF算法的机制、优势及其在深度学习中的应用。

FF算法的机制

FF算法的核心思想是用两个前向传递来替代反向传播中的前向和后向传递[3]。具体来说，第一个前向传递涉及正样本（即真实数据），而第二个前向传递涉及负样本，这些负样本可以由网络本身生成[3]。每一层都有其独立的目标函数，目标是对正样本具有高好度（goodness）而对负样本具有低好度[3]。

好度的定义

好度可以通过多种方式来衡量，例如层中的平方活动之和或负的平方活动之和[3]。这种多样性的衡量标准为算法提供了灵活性，使其能够适应不同的应用场景。

时间上的分离

一个有趣的特点是，如果正负传递可以在时间上分离，那么负传递可以离线进行[3]。这使得正向传递中的学习过程更加简化，并允许视频数据在不存储活动或传播导数的情况下通过网络进行流水线处理[3]。

FF算法的优势

实时学习

FF算法可以在不打断输入流处理的情况下，实时学习流数据的多层次表示[2]。这对于处理动态和连续数据非常有利，例如视频流或实时传感器数据。

易于实现

与强化学习相比，FF算法在扩展性上表现更好，并且比反向传播更容易在大脑皮层中实现[2]。这使得FF算法在神经科学和脑机接口等领域具有潜在的应用价值。

结论

总的来说，Geoffrey Hinton在NeurIPS 2022上提出的前向-前向算法为深度神经网络的训练提供了一种新的视角。其无需传播导数或记忆神经活动的特点，使得它在实时数据处理和扩展性方面具有显著优势。随着进一步的研究和优化，FF算法有望在未来的深度学习中发挥重要作用。

参考文献
前向-前向（FF）算法的重新实现

简介

在GitHub上，loeweX的仓库提供了Geoffrey Hinton前向-前向（Forward-Forward，简称FF）算法的Python/PyTorch重新实现。这一实现涵盖了论文中第3.3节“FF的一个简单监督示例”中描述的实验，并实现了与官方Matlab实现大致相同的性能。

FF算法概述

FF算法是一种更符合生物学原理的深度神经网络训练方法。与传统的反向传播不同，FF算法不在层之间共享梯度，而是基于局部损失训练每一层。具体来说，网络进行两个前向传递：
1. 正样本前向传递：这些样本代表“真实”数据，网络被训练以最大化每一层的“好度”（goodness）。
2. 负样本前向传递：这些样本是对真实数据分布的扰动，网络被训练以最小化每一层的好度。
好度可以通过多种方式评估，如计算层的平方活动之和。

实验设置

设置环境

要运行该代码，您需要按照以下步骤设置环境：
1. 安装Conda：确保您的系统上安装了Conda。
2. 调整脚本：根据需要调整setup_conda_env.sh脚本（例如，设置正确的CUDA版本）。
3. 运行脚本：执行以下命令来设置环境：
```
bash setup_conda_env.sh
```
运行实验

设置好环境后，您可以运行训练和评估：
```
source activate FF
python -m main
```
结果对比

以下是不同实现的FF算法的测试误差对比：

实现测试误差 (%)
论文 1.36
官方Matlab实现 1.47
本仓库 1.45

总结

FF算法通过引入局部损失和双前向传递，为深度神经网络的训练提供了一种新的方法。该仓库提供的实现不仅验证了FF算法的有效性，还展示了其在实际应用中的潜力。

资源和许可
- 原始论文
- 官方Matlab实现
本仓库代码基于MIT许可协议发布，详情请参见LICENSE文件。

了解更多：
2024 年 6 月 28 日
大模型推理加速新突破：FlashDecoding++
大型语言模型 (LLM) 正在改变世界，从生成文本到翻译语言，再到编写代码，LLM 的应用范围越来越广。然而，LLM 的推理速度一直是制约其应用的关键因素。为了解决这个问题，研究人员一直在探索各种方法来加速 LLM 推理。

本文将介绍一篇名为 “FlashDecoding++: Faster Large Language Model Inference on GPUs” 的论文，该论文提出了一种新的 LLM 推理加速技术，可以在 GPU 上显著提高推理速度。

LLM 推理加速的挑战

加速 LLM 推理面临着三大挑战：
1. 同步部分 Softmax 更新： Softmax 操作需要对每个部分 Softmax 结果进行同步更新，这导致了 LLM 中注意力计算的约 20% 的开销。
2. 扁平 GEMM 的计算利用率低下： LLM 推理中执行 GEMM 的矩阵形状是扁平的，导致计算利用率低下，在之前的设计中，填充零后会导致超过 50% 的性能损失。
3. 静态数据流导致的性能损失： LLM 中的内核性能取决于不同的输入数据特征、硬件配置等。单一且静态的数据流会导致 LLM 推理中不同形状的 GEMM 出现 50.25% 的性能损失。
FlashDecoding++ 的解决方案

FlashDecoding++ 针对上述挑战提出了以下解决方案：
1. 异步 Softmax 与统一最大值： FlashDecoding++ 引入了一种统一最大值技术，用于不同的部分 Softmax 计算，从而避免同步。
2. 双缓冲的扁平 GEMM 优化： FlashDecoding++ 指出不同形状的扁平 GEMM 面临着不同的瓶颈。然后，引入了双缓冲等技术。
3. 硬件资源自适应的启发式数据流： FlashDecoding++ 使用不同的硬件资源，考虑输入动态，启发式地优化数据流。
性能提升

FlashDecoding++ 的优化策略使其在 NVIDIA 和 AMD GPU 上都取得了显著的性能提升，与 Hugging Face 实现相比，分别实现了高达 4.86 倍和 2.18 倍的加速。与主流 LLM 上最先进的 LLM 推理引擎相比，FlashDecoding++ 的平均加速比为 1.37 倍。

总结

FlashDecoding++ 提出了一套全面的 LLM 推理加速解决方案，有效地解决了 LLM 推理中的三大挑战。其在主流 LLM 和硬件平台上的出色表现，为 LLM 的广泛应用提供了强有力的支持。

参考文献
- [2311.01282] FlashDecoding++: Faster Large Language Model Inference on GPUs
- Stanford CRFM
- GitHub – opengear-project/GEAR: GEAR: An Efficient KV Cache Compression Recipefor Near-Lossless Generative Inference of LLM
- DistServe/distserve at main · LLMServe/DistServe · GitHub
注：本文仅对 FlashDecoding++ 论文进行了简要介绍，更多细节请参考原文。

在GPU上推理大规模语言模型（LLM）的性能至关重要，而FlashDecoding++是一款针对LLM推理的快速引擎，通过解决同步部分softmax更新、未充分利用的扁平化GEMM计算和静态数据流等挑战，实现了显着的推理加速效果。

解决同步部分softmax更新的挑战：
FlashDecoding++引入了异步softmax和统一最大值的技术，避免了在计算部分softmax结果时需要同步更新的问题。每个部分softmax结果可以独立进行处理，无需进行同步操作，从而减少了计算中的开销。

解决未充分利用的扁平化GEMM计算的挑战：
FlashDecoding++通过双缓冲技术对扁平化GEMM计算进行了优化，隐藏了内存访问延迟，提高了计算利用率。它在共享内存中分配了两个独立的缓冲区，一个缓冲区用于进行GEMM计算，而另一个缓冲区则用于加载下一个GEMM操作所需的数据。通过这种方式，计算和内存访问可以同时进行，实现了计算与存储的重叠。

解决静态数据流的挑战：
FlashDecoding++采用了启发式数据流和硬件资源适应的方法。它根据输入动态和硬件配置，在不同的线性工作负载下动态优化数据流，选择最佳的实现方式。通过根据不同工作负载的特点进行灵活调整，FlashDecoding++实现了最佳的推理性能。

性能评估：
FlashDecoding++在多个硬件平台上进行了性能评估，包括NVIDIA和AMD的GPU。与Hugging Face、vLLM、DeepSpeed、TensorRT-LLM、OpenPPL和FlashDecoding等LLM推理引擎进行了比较。结果表明，FlashDecoding++相对于这些基线引擎实现了显着的加速效果，提供了高达4.86倍的推理速度提升。
2024 年 6 月 16 日

实现	测试误差 (%)
论文	1.36
官方Matlab实现	1.47
本仓库	1.45

标签： AI

前向-前向（FF）算法：一种全新的深度学习方法

引言

FF算法的机制

好度的定义

时间上的分离

FF算法的优势

实时学习

易于实现

结论

参考文献

前向-前向（FF）算法的重新实现

简介

FF算法概述

实验设置

设置环境

运行实验

结果对比

总结

资源和许可

大模型推理加速新突破：FlashDecoding++

LLM 推理加速的挑战

FlashDecoding++ 的解决方案

性能提升

总结

参考文献