标签：软件

逃离中心化：星际文件系统 IPFS 的崛起
互联网正变得越来越中心化。从域名解析到内容托管，再到路由和证书颁发，越来越多的服务都集中在少数几家大型公司手中。这种中心化趋势带来了单点故障风险，一旦这些公司出现问题，整个互联网都可能陷入瘫痪。2013 年亚马逊电商平台的宕机事件就是一个典型的例子，每分钟的损失超过 66000 美元。

为了解决这个问题，近年来兴起了一场“网络去中心化”技术运动，旨在赋予用户更多控制权。IPFS (星际文件系统) 就是这场运动中的重要一员。IPFS 是一个完全去中心化的、内容寻址的媒体对象存储和检索平台。 它将内容的名称与其存储位置分离，并依赖去中心化的对等网络来索引和存储数据，从而避免了单一实体对网络的控制。

IPFS 的核心概念

IPFS 的设计基于四个主要概念：
- 内容寻址: IPFS 使用基于哈希的内容标识符 (CID) 来标识数据，而不是使用传统的基于位置的地址。这意味着数据可以由任何对等点提供，而无需依赖特定的服务器。
- 去中心化对象索引: IPFS 使用去中心化的 P2P 覆盖网络来索引对象的可用位置，即使一些节点失效，也不会影响数据的访问。
- 不可变性及自认证: IPFS 使用加密哈希来自认证对象，确保数据的完整性和真实性，无需依赖证书颁发机构。
- 开放参与: 任何人都可以部署 IPFS 节点并参与网络，无需特殊权限。
IPFS 如何工作？

IPFS 通过以下步骤发布和检索内容：
1. 内容发布: 当用户将数据导入 IPFS 时，数据会被分割成块，每个块都会被分配一个唯一的 CID。然后，IPFS 会构建一个 Merkle DAG (默克尔有向无环图) 来存储这些块，并生成一个根 CID，代表整个数据的标识符。
2. 提供者记录: 为了让其他用户找到数据，发布者需要生成一个提供者记录，将 CID 映射到自己的 PeerID (对等点标识符) 和 Multiaddress (网络地址)。
3. DHT 索引: 提供者记录会被发布到一个去中心化的哈希表 (DHT) 上，DHT 会将 CID 和 PeerID 存储起来，并帮助用户找到数据。
4. 内容检索: 当用户想要检索数据时，他们会向 DHT 发送请求。DHT 会根据 CID 找到最近的提供者记录，并返回提供者的 PeerID 和 Multiaddress。
5. 对等点连接: 用户会连接到提供者，并使用 Bitswap 协议从提供者获取数据。
IPFS 的优势

IPFS 带来了许多优势，包括：
- 名称持久性: 数据的标识符是不可变的，即使数据被复制或移动，其标识符也不会改变。
- 文件完整性: IPFS 使用加密哈希来验证数据的完整性，确保数据没有被篡改。
- 数据去重: IPFS 会自动识别和删除重复数据，节省存储空间和带宽。
- 抗审查性: 由于数据分布在多个节点上，任何人都无法轻易删除或修改数据。
- 网络分区容错性: 即使网络出现故障，IPFS 仍然可以正常工作。
IPFS 的挑战

IPFS 也面临着一些挑战，包括：
- 激励机制: 目前 IPFS 缺乏有效的激励机制，导致用户参与度不高。
- 访问控制: IPFS 默认不提供访问控制机制，需要用户自行实现。
- 内容可用性: 由于 IPFS 是一个尽力而为的网络，无法保证所有数据都始终可用。
IPFS 的未来

尽管面临着挑战，IPFS 仍然拥有巨大的潜力。它有可能改变我们存储和访问数据的方式，并为互联网带来更去中心化、更安全、更可靠的未来。

参考文献
https://ipfs.io/ipfs/QmePKXH5VsUmRrWr5iQgz1gvf5AujoRpd9yxFtcx7CgeZ2?filename=IPFS%E5%8E%9F%E7%90%86%E8%AF%A6%E8%A7%A3.pdf

https://ipfs.io/ipfs/QmSX6abumAo8BGGawLx2nRrKy4885oFiKEnpKec1oLKjxK?filename=IPFS%E4%B8%AD%E7%9A%84%E5%88%86%E5%B8%83%E5%BC%8F%E5%93%88%E5%B8%8C%E8%A1%A8DHT.pdf
2024 年 6 月 7 日
斯坦福“雷猫”：GPU 性能的秘密武器
AI 计算需求与日俱增，如何让 GPU 充分发挥潜力成为一大难题。斯坦福大学的研究人员最近发布了一个名为“雷猫”（ThunderKittens）的工具，它可以显著提升 GPU 的运行效率，甚至比目前最快的 FlashAttention2 还要快 30%！

雷猫的秘密武器在于它对 GPU 硬件的深度理解。研究人员从“硬件实际需要什么？如何满足这些需求？”这两个问题出发，设计了一个嵌入式 CUDA DSL 工具。雷猫通过操作小型张量块（tile）来简化 AI 内核的编写，并充分利用张量核心、异步数据传输和共享内存等硬件特性。

H100：性能之王，如何榨干它的潜力？

研究人员以英伟达最新的 H100 GPU 为例，深入探讨了如何优化 GPU。H100 拥有 989 TFLOPs 的半精度矩阵乘法计算能力，但要充分发挥它的能力，关键是保持张量核心持续运算。

然而，要做到这一点并不容易。研究人员发现，H100 硬件具有一些特性，对于保持矩阵乘法的运行至关重要：
- WGMMA 指令： H100 引入了新的指令集 WGMMA，它允许 128 个线程跨 SM 所有子单元协作同步，并从共享内存及寄存器异步启动矩阵乘法。这些指令对于充分利用 H100 的计算能力是必不可少的，没有它们，GPU 的峰值利用率会损失 37%。
- 共享内存： 共享内存的延迟虽然看似不多，但对于高速运行的张量核心来说已经足够显著。此外，共享内存的存储单元独立，处理不当会导致 bank conflicts，显著拖慢内核速度。
- 地址生成： H100 的张量核心和内存速度极快，仅生成用于获取数据的内存地址就占用了芯片的大量资源。英伟达提供的张量内存加速器（TMA）可以异步提取张量的一部分，大大节省了地址生成的开销。
- 占用率： 占用率指的是 GPU 上同时调度的线程数。高占用率可以隐藏缺陷或同步问题，但一个设计良好的 pipeline 即使在占用率不高的情况下也能运行得相当快。
雷猫：小而精，性能大提升

为了更轻松地编写所需的内核类型，并充分发挥硬件的全部潜力，雷猫应运而生。它是一个嵌入在 CUDA 中的 DSL，包含四种模板类型：寄存器 tiles、寄存器向量、共享 tiles 和共享向量。雷猫提供了一系列操作来处理这些张量，既可在 warp 级别使用，也可用于多个 warp 协作。

雷猫的优势在于它的小而简单，功能有限，但它符合 AI 和硬件的发展趋势。研究人员认为，AI 的设计理念应该根据硬件特性进行重新定义，例如循环状态应该足够大以适应一个 SM，计算的密度应该不低于硬件的需求。

未来展望：AI 与硬件的深度融合

雷猫的出现，标志着 AI 和硬件深度融合的新方向。研究人员认为，未来需要利用对硬件的了解，设计与之匹配的 AI，从而进一步提升 GPU 的性能，释放 AI 的潜力。

雷猫的未来展望：
- 跨平台支持： 研究人员计划将雷猫扩展到 AMD 硬件平台，进一步扩大其应用范围。
- 更深度的硬件融合： 雷猫团队将继续研究如何更深入地利用 GPU 硬件特性，例如利用 H100 的分布式共享内存，以进一步提升性能。
- AI 设计理念的革新： 研究人员认为，未来 AI 的设计理念应该更加贴近硬件，例如循环状态的大小应该与 SM 的容量相匹配，计算密度应该不低于硬件的需求。
雷猫的出现，为 AI 计算领域带来了新的希望。通过深入理解硬件特性，并设计与之匹配的 AI，我们可以进一步提升 GPU 的性能，释放 AI 的潜力，为 AI 技术的进步贡献力量。

参考文献：

[1] https://hazyresearch.stanford.edu/blog/2024-05-12-tk

斯坦福大学的研究人员开发了一款名为“雷猫”的新工具，它被称为GPU性能的秘密武器。这个工具可以提高GPU的运行效率，比使用FlashAttention-2（FA2）还要快。通过使用雷猫，研究人员成功地将H100 GPU的性能提升了30%[1]。

以下是关于斯坦福“雷猫”工具的一些关键信息：
1. 工具简介：
- 雷猫是一个嵌入式CUDA DSL工具，它可以简化AI内核的编写，并充分利用底层硬件能力[1]。
- 雷猫的主要抽象是寄存器和共享内存中的小型张量块（tile），与GPU中对小矩阵乘法的优化相匹配[1]。
1. 工具优势：
- 使用雷猫实现的注意力机制内核，代码量少且能实现很高的硬件利用率，性能超过直接使用底层库（如Cutlass）[1]。
- 雷猫可以帮助开发者相对简单地编写代码，充分利用张量核心、异步数据传输和共享内存等硬件特性[1]。
1. H100 GPU的优化方法：
- H100 GPU是斯坦福研究人员探讨的一个例子，用于讨论GPU的优化方法[1]。
- H100 GPU具有80GB的HBM3内存、50MB的L2缓存和132个流式多处理器（SM）等硬件细节[1]。
- 为了充分发挥H100的计算能力，关键是保持张量核心持续运算[1]。
1. 保持张量核心持续运算的注意事项：
- WGMMA指令是保持矩阵乘法运行的关键，但使用起来较为麻烦[1]。
- 共享内存的速度可能不如预期快，需要额外注意[1]。
- 生成地址的成本较高，需要注意控制[1]。
- 保持高占用率对于提升性能是有益的，寄存器至关重要[1]。
斯坦福大学的研究人员通过这项研究和开发的“雷猫”工具，成功提高了GPU的运行效率，为AI算力资源紧张的时代提供了一种新的解决方案。这项研究对于进一步优化GPU性能和提高AI算力的利用率具有重要意义。

Learn more:
2024 年 6 月 7 日

标签： 软件

逃离中心化：星际文件系统 IPFS 的崛起

斯坦福“雷猫”：GPU 性能的秘密武器

H100：性能之王，如何榨干它的潜力？

雷猫：小而精，性能大提升

未来展望：AI 与硬件的深度融合

标签：软件