标签： AI

斯坦福“雷猫”：让 GPU 高速运转，比 FlashAttention2 还快！
AI 算力资源越来越紧张，如何提升 GPU 的运行效率成为了热门话题。斯坦福大学的研究人员近日推出了一个名为 ThunderKittens（暂且译为“雷猫”）的嵌入式 CUDA DSL 工具，它能显著提升 GPU 的性能，甚至比目前最快的 FlashAttention-2 还要快 30%。

“雷猫”的秘密武器：小型张量块

“雷猫”的强大之处在于它巧妙地利用了 GPU 的硬件特性。它将 AI 内核的编写简化，并充分利用底层硬件能力。具体来说，它主要抽象了寄存器和共享内存中的小型张量块（tile），这与目前 GPU 中对小矩阵乘法的优化相匹配。通过操作这些 tile，开发者可以相对简单地编写代码，充分利用张量核心、异步数据传输和共享内存等硬件特性。

H100：如何榨干它的潜力？

为了更好地理解“雷猫”的原理，我们以英伟达最新的 H100 GPU 为例。H100 拥有强大的计算能力，但要充分发挥它的潜力，需要克服一些挑战。
- WGMMA 指令：H100 引入了一套新的指令集，名为“warp group matrix multiply accumulate”。这些指令对于充分发挥 H100 的计算能力至关重要，但它们的使用也颇为复杂，需要精心控制内存请求的合并和避免 bank conflicts。
- 共享内存：共享内存的速度并不如预期快，使用时需要格外注意。处理不当可能会引发 bank conflicts，显著拖慢内核速度。
- 地址生成：生成地址的成本较高，特别是加入复杂的交错或重排模式时，这种情况更为明显。
- 占用率：保持高占用率对于提升性能是有益的，寄存器至关重要。
“雷猫”：简化代码，提升性能

为了解决这些挑战，斯坦福的研究人员开发了“雷猫”。它包含四种模板类型：寄存器 tiles、寄存器向量、共享 tiles 和共享向量。开发者可以使用这些模板类型和一系列操作来处理张量，并充分利用 GPU 的硬件特性。

“雷猫”的优势：
- 简化代码：使用“雷猫”编写的内核代码量更少，复杂性更低。
- 提升性能：“雷猫”可以显著提高 GPU 的硬件利用率，性能超过直接使用底层库（如 Cutlass）。
- 适应性强：“雷猫”作为一个嵌入到 CUDA 中的库，其提供的抽象层在遇到不支持的功能时能够很好地处理。
未来展望：

斯坦福的研究人员认为，小型张量块的设计理念符合 AI 和硬件的发展趋势。他们相信，未来会看到更多基于小型张量块的 AI 设计，以及硬件对小型矩阵乘法的支持。

总结：

“雷猫”是一个强大的工具，它可以帮助开发者更轻松地编写高效的 AI 内核，并充分发挥 GPU 的潜力。它不仅能提升 AI 模型的训练和推理速度，还能促进一系列高吞吐量应用的发展。

参考文献：

[1] https://hazyresearch.stanford.edu/blog/2024-05-12-tk
[2] https://github.com/HazyResearch/ThunderKittens
[3] https://news.ycombinator.com/item?id=40337936
2024 年 6 月 7 日
联邦学习：保护隐私，共同进步
近年来，人工智能技术飞速发展，机器学习模型在各个领域都取得了显著成果。然而，传统的机器学习方法通常需要将所有数据集中到一个中央服务器进行训练，这可能会引发数据隐私和安全问题。为了解决这一问题，联邦学习应运而生。

联邦学习：数据不共享，模型共训练

通俗来说，联邦学习就像一群人共同学习一项技能，每个人都拥有自己的学习资料，但他们可以互相交流学习方法，最终共同提高技能水平。在联邦学习中，多个设备或数据源在不共享原始数据的情况下，共同训练模型以提高预测性能。

联邦学习的工作原理

联邦学习的工作方式可以概括为以下几个步骤：
1. 初始化阶段： 中央服务器或云端会初始化一个全局模型。
2. 本地训练： 参与方（本地设备）使用自己的本地数据集对全局模型进行训练，这个训练过程只在本地设备上进行，不会共享原始数据。
3. 模型聚合： 参与方将训练得到的模型参数更新发送回中央服务器，中央服务器对这些参数进行聚合，得到一个新的全局模型。
4. 迭代更新： 重复进行本地训练和模型聚合的过程，直到全局模型收敛到一个满意的状态。
联邦学习的优势

联邦学习的优势主要体现在以下几个方面：
- 数据隐私保护： 原始数据保留在本地，不需要共享，因此可以更好地保护数据隐私。
- 降低数据传输需求： 仅传输模型参数更新，而不是原始数据，从而减少了数据传输的需求。
- 适用于分布式数据： 适用于数据分布在不同地点或设备上的情况，如移动设备上的个人数据。
异构联邦学习：应对现实世界中的差异

联邦学习的核心理念是将模型训练分布在多个参与方之间，保护数据隐私的同时提高模型的整体性能。然而，现实世界中的数据分布、模型结构、通信网络和系统边缘设备存在很大差异，这些差异被称为异构性。

异构联邦学习的主要特点

异构联邦学习面临着以下几个方面的挑战：
- 异构数据： 参与方的数据可能来自不同的领域、行业或地区，具有不同的特征分布和属性。
- 异构计算能力： 不同参与方的计算能力可能不同，有些设备可能更强大，而其他设备可能计算资源有限。
- 异构通信环境： 不同参与方之间的通信环境也可能不同，有些设备可能具有较快的网络连接，而其他设备可能连接较慢。
- 异构模型： 不同参与方所希望用到的模型更加的本地化，因此不同参与方用到的模型有所差异。
异构联邦学习的分类

为了应对这些异构性，异构联邦学习采取了一些策略，并被分为以下三个层次：
- 数据层： 在客户端之间对数据进行操作，以减少局部数据的统计异质性或提高数据隐私。
- 模型层： 在模型层面设计的操作，例如共享部分模型结构和模型优化。
- 服务器层： 服务器级方法需要服务器的参与，例如参与客户端选择或客户端聚类。
数据层方法

数据层方法主要包括数据准备和数据隐私保护。数据准备包括数据收集、过滤、清洗、增强等操作，可以缓解统计异质性。数据隐私保护则通过数据加密、扰动和匿名化等技术来保护客户端数据的隐私。

模型层方法

模型层方法主要包括联邦优化、跨模型的知识转移和架构共享。联邦优化通过正则化、元学习和多任务学习等技术来提高模型的适应性。跨模型的知识转移则通过知识蒸馏和迁移学习等技术来实现模型之间的协作。架构共享则通过共享部分模型结构来提高模型的效率。

服务器层方法

服务器层方法主要包括客户端选择和客户端聚类。客户端选择是指选择合适的客户端参与训练，以提高模型的性能。客户端聚类则是将具有相似特征的客户端进行分组，以提高训练效率。

未来方向

异构联邦学习仍然面临着许多挑战，未来研究方向包括：
- 提高通信效率： 探索更有效的通信策略，减少通信开销。
- 联邦公平性： 保证不同参与方在联邦学习过程中的公平性。
- 隐私保护： 设计更强大的隐私保护机制，防止数据泄露。
- 攻击鲁棒性： 提高联邦学习系统对攻击的抵抗能力。
- 统一基准： 建立统一的基准数据集和测试框架，方便不同方法的比较和评估。
总结

联邦学习是一种新兴的机器学习技术，它能够在保护数据隐私的前提下，实现分布式模型训练。异构联邦学习则进一步考虑了现实世界中数据和计算环境的差异，为联邦学习在实际应用中提供了更强大的支持。随着研究的不断深入，联邦学习将为人工智能技术的发展带来新的机遇。

参考文献

[1] Heterogeneous Federated Learning: State-of-the-art and Research Challenges. https://arxiv.org/abs/2112.10542
2024 年 6 月 7 日

标签： AI

斯坦福“雷猫”：让 GPU 高速运转，比 FlashAttention2 还快！

联邦学习：保护隐私，共同进步