标签： AGI

LLM 前沿技术跟踪：PagedAttention 升级版 vAttention
近年来，大型语言模型（LLM）在各个领域都取得了显著进展，但其高昂的计算资源消耗和内存占用成为了制约其应用的关键瓶颈。PagedAttention 作为一种动态内存分配机制，在一定程度上解决了 LLM 的内存问题，但也存在一些缺陷，例如内存不连续导致的效率低下和开发难度增加。

本文将介绍一种全新的内存管理技术——vAttention，它可以看作是 PagedAttention 的升级版本，有效地解决了这些问题，并显著提升了 LLM 的性能。

PagedAttention 的局限性

PagedAttention 通过动态分配内存来应对 LLM 自回归生成时内存需求不确定的问题。然而，这种方法存在以下几个不足：
- 内存不连续： PagedAttention 会导致内存分配不连续，需要在框架中引入额外的内存管理代码，增加了开发难度。
- 注意力计算效率降低： kv cache 在注意力计算中无法连续读取，需要手动修改注意力内核代码进行分段读取，降低了计算效率。
- 性能劣于 FlashAttention： 在小数据量时，PagedAttention 的速度明显慢于 FlashAttention，可能是由于 cache 命中率高，连续内存读取效率更高导致的。
vAttention：突破传统内存管理的限制

vAttention 巧妙地利用了虚拟内存机制，将预分配虚拟内存和实际分配物理内存分离，并拓展了分配小内存的 PyTorch 算子，将内存管理从注意力内核中剥离出来。

vAttention 的核心思想:
1. 预留虚拟内存： 创建足够长的虚拟内存，但并不分配物理内存，利用系统本身的虚拟内存管理机制。
2. 按需物理内存分配： 每次优先分配一个物理内存页面，仅当请求已使用完其先前分配的所有物理内存页面时，再分配新的物理内存，并映射到虚拟内存中。
3. 利用低级 CUDA 支持： vAttention 利用 CUDA 低级 API，可以对虚拟和物理内存进行细粒度控制，实现更灵活的内存管理。
4. 拓展 PyTorch 接口： vAttention 扩展了 PyTorch 缓存分配器，允许应用程序为张量保留虚拟内存缓冲区，而无需提前提交物理内存。
5. 请求级 KV-cache 索引： vAttention 使用唯一的整数标识符来定位请求的子张量，并进行相应的内存分配和释放。
vAttention 的优势:
- 连续内存： vAttention 保证了 KV 缓存存储在连续的虚拟内存中，无需提前提交物理内存，避免了内存碎片化问题。
- 性能提升： vAttention 能够无缝接入 FlashAttention 等高性能注意力计算内核，并通过优化内存管理机制，显著提升了 LLM 的性能。
性能评估

实验结果表明，vAttention 在吞吐量和推理时间方面都取得了显著提升，性能比 vLLM 高出 1.97 倍。

总结

vAttention 作为 PagedAttention 的升级版本，有效地解决了传统内存管理机制的缺陷，为 LLM 的应用提供了更强大的支持。它不仅提高了 LLM 的性能，也简化了开发流程，为 LLM 的进一步发展提供了新的方向。

注：本文内容主要参考了 akaihaoshuai 的知乎文章，并加入了个人理解和分析。
2024 年 6 月 15 日
联邦推荐系统与基础模型：迈向个性化推荐的未来
在数字时代，信息爆炸式增长，人们迫切需要能够帮助他们筛选、过滤和个性化信息的系统。推荐系统（RS）应运而生，成为过滤在线信息的重要工具，帮助用户发现符合其偏好的产品、内容和服务。然而，传统的推荐系统严重依赖于集中式数据收集和处理，存在着巨大的隐私风险和运营瓶颈。

用户隐私的至关重要性

随着欧洲通用数据保护条例（GDPR）等严格数据保护法规的出台，人们对用户隐私的重视程度空前提高。GDPR 强调将用户数据存储在本地设备上，而不是上传到中央服务器。

联邦学习：保护用户隐私的利器

为了解决这些隐私问题，谷歌提出了联邦学习（FL）框架，该框架旨在跨分散设备训练模型，同时将数据保留在本地。FL 在客户端进行本地模型训练和在中央服务器上进行全局参数聚合之间交替进行。

联邦推荐系统：将联邦学习与推荐系统相结合

将 FL 与 RS 相结合对于保护推荐服务中的用户隐私至关重要，这催生了联邦推荐系统（FRS）的兴起。在 FRS 中，每个客户端通常代表单个用户的设备。FRS 近年来在服务提供、日常安排、驾驶规划等领域取得了令人瞩目的成果，对人们的日常生活产生了重大影响。

FRS 面临的挑战：数据异质性和稀疏性

与 FL 类似，FRS 需要将用户数据保留在本地以保护用户隐私。然而，在大多数情况下，每个客户端通常只包含一个用户访问的项目的相关数据，与整个项目集相比，数据量非常小，造成了严重的数据稀疏性问题。此外，不同的用户具有不同的行为和偏好，导致数据异质性。这两种问题的存在会导致模型次优，降低推荐效果。

基础模型：解决数据稀疏性和异质性的新方向

近年来，随着 ChatGPT 和扩散模型在语言理解和图像生成方面的显著成功，一种构建人工智能系统的新范式——基础模型（FM）引起了广泛关注。FM 通过使用自监督学习来优化训练目标，并能够通过微调或提示适应各种下游任务。

FM 的优势：强大的知识库和自适应能力

FM 通常使用来自多个来源的大量数据进行训练，能够在执行特定下游任务时整合大量额外知识，有效缓解数据稀疏性问题。此外，FM 能够捕获复杂的用户偏好和行为，并通过微调快速适应特定客户数据，从而提高本地模型的性能。

将 FM 整合到 FRS 中：迈向更强大的个性化推荐

将 FM 整合到 FRS 中，可以利用 FM 的强大知识库和自适应能力来解决 FRS 面临的数据稀疏性和异质性问题，并进一步提升用户体验。

整合 FM 的三个关键阶段
- 客户端模型更新： FM 可以通过迁移学习将从大型语料库中学习到的知识应用于本地数据，并通过微调适应特定用户行为数据，从而在数据稀疏的情况下实现良好的推荐效果。
- 通信： FM 可以利用其强大的表示能力，通过高效的数据表示和语义压缩技术，将模型更新信息压缩成更紧凑的表示，从而减少客户端和服务器之间的数据传输量。
- 全局聚合： FM 可以利用其强大的语义理解能力，根据每个参与者更新的语义和上下文关系，智能地聚合更新，并根据上下文信息为每个更新分配不同的权重，从而更准确地反映用户偏好和行为。
整合 FM 所面临的挑战
- 数据隐私和安全： FM 有可能记忆和复制训练集中的数据，从而泄露敏感信息。需要使用额外的加密技术来保护用户数据，例如差分隐私和同态加密。
- 数据稀疏性和样本不平衡： 尽管 FM 能够进行零样本和少样本学习，但仍需要优化才能处理极其稀疏的数据。需要使用数据增强技术来生成更多训练样本，或者利用来自其他领域的知识迁移来缓解数据稀疏性问题。
- 模型同步和异质性： 由于 FM 的参数数量巨大，模型同步需要大量的计算资源和时间。需要使用梯度压缩技术来减少模型同步期间传输的数据量，或者采用异步更新策略来提高同步效率。
- 模型可解释性和透明度： FM 通常被视为黑盒模型，难以理解其内部工作机制。需要使用可解释性 AI 技术来提供模型决策的透明和可理解的解释，例如注意力机制和特征重要性分析。
未来的研究方向
- 数据增强： 利用 FM 生成更多用户交互数据，缓解数据稀疏性问题。
- 冷启动推荐： 利用 FM 的强大的零样本和少样本学习能力，为冷启动用户和项目提供有效的推荐。
- 多模态推荐： 利用 FM 的多模态数据处理能力，构建更全面和多维的用户画像，从而提高推荐的个性化程度。
- 实时推荐： 利用 FM 的上下文理解能力，根据用户的实时行为和上下文数据动态地提供个性化内容。
- 增强推荐可解释性： 利用 FM 的自然语言生成能力，为用户提供清晰且连贯的推荐结果解释。
- 高级指标： 开发针对 FM 在 RS 中特定应用场景的新的评估指标，特别是针对生成式推荐。
总结

将 FRS 与 FM 相结合，能够在保护用户隐私的同时，提供更准确的个性化推荐服务，为个性化推荐的未来开辟了新的方向。未来，随着技术的不断发展，FM 在 FRS 中将发挥越来越重要的作用。

参考文献

[1] H. Ko, S. Lee, Y. Park, and A. Choi, “A survey of recommendation systems: recommendation models, techniques, and application fields,” Electronics, vol. 11, no. 1, p. 141, 2022.

[2] P. Voigt and A. Von dem Bussche, “The eu general data protection regulation (gdpr),” A Practical Guide, 1st Ed., Cham: Springer International Publishing, vol. 10, no. 3152676, pp. 10–5555, 2017.

[3] B. McMahan, E. Moore, D. Ramage, S. Hampson, and B. A. y Arcas, “Communication-efficient learning of deep networks from decentralized data,” in Artificial intelligence and statistics. PMLR, 2017, pp. 1273–1282.

[4] C. Zhang, Y. Xie, H. Bai, B. Yu, W. Li, and Y. Gao, “A survey on federated learning,” Knowledge-Based Systems, vol. 216, p. 106775, 2021.

[5] R. Bommasani, D. A. Hudson, E. Adeli, R. Altman, S. Arora, S. von Arx, M. S. Bernstein, J. Bohg, A. Bosselut, E. Brunskill et al., “On the opportunities and risks of foundation models,” arXiv preprint arXiv:2108.07258, 2021.

[6] Z. Li, G. Long, and T. Zhou, “Federated recommendation with additive personalization,” arXiv preprint arXiv:2301.09109, 2023.

[7] C. Zhang, G. Long, H. Guo, X. Fang, Y. Song, Z. Liu, G. Zhou, Z. Zhang, Y. Liu, and B. Yang, “Federated adaptation for foundation model-based recommendations,” arXiv preprint arXiv:2405.04840, 2024.

[8] C. Chen, X. Feng, J. Zhou, J. Yin, and X. Zheng, “Federated large language model: A position paper,” arXiv preprint arXiv:2307.08925, 2023.

[9] W. Zhuang, C. Chen, and L. Lyu, “When foundation model meets federated learning: Motivations, challenges, and future directions,” arXiv preprint arXiv:2306.15546, 2023.

[10] S. Yu, J. P. Muñoz, and A. Jannesari, “Federated foundation models: Privacy-preserving and collaborative learning for large models,” arXiv preprint arXiv:2305.11414, 2023.

[11] H. Woisetschläger, A. Isenko, S. Wang, R. Mayer, and H.-A. Jacobsen, “A survey on efficient federated learning methods for foundation model training,” arXiv preprint arXiv:2401.04472, 2024.

[12] S. Chen, G. Long, T. Shen, and J. Jiang, “Prompt federated learning for weather forecasting: Toward foundation models on meteorological data,” arXiv preprint arXiv:2301.09152, 2023.

[13] X. Li and J. Wang, “Position paper: Assessing robustness, privacy, and fairness in federated learning integrated with foundation models,” arXiv preprint arXiv:2402.01857, 2024.

[14] C. Ren, H. Yu, H. Peng, X. Tang, A. Li, Y. Gao, A. Z. Tan, B. Zhao, X. Li, Z. Li et al., “Advances and open challenges in federated learning with foundation models,” arXiv preprint arXiv:2404.15381, 2024.

[15] P. Liu, L. Zhang, and J. A. Gulla, “Pre-train, prompt, and recommendation: A comprehensive survey of language modeling paradigm adaptations in recommender systems,” Transactions of the Association for Computational Linguistics, vol. 11, pp. 1553–1571, 2023.

[16] L. Wu, Z. Zheng, Z. Qiu, H. Wang, H. Gu, T. Shen, C. Qin, C. Zhu, H. Zhu, Q. Liu et al., “A survey on large language models for recommendation,” arXiv preprint arXiv:2305.19860, 2023.

[17] L. Yang, B. Tan, V. W. Zheng, K. Chen, and Q. Yang, “Federated recommendation systems,” Federated Learning: Privacy and Incentive, pp. 225–239, 2020.

[18] Z. Alamgir, F. K. Khan, and S. Karim, “Federated recommenders: methods, challenges and future,” Cluster Computing, vol. 25, no. 6, pp. 4075–4096, 2022.

[19] D. Javeed, M. S. Saeed, P. Kumar, A. Jolfaei, S. Islam, and A. K. M. N. Islam, “Federated Learning-based Personalized Recommendation Systems: An Overview on Security and Privacy Challenges,” IEEE Transactions on Consumer Electronics, pp. 1–1, 2024.

[20] Z. Sun, Y. Xu, Y. Liu, W. He, L. Kong, F. Wu, Y. Jiang, and L. Cui, “A survey on federated recommendation systems,” IEEE Transactions on Neural Networks and Learning Systems, 2024.

[21] C. Zhang, G. Long, T. Zhou, P. Yan, Z. Zhang, C. Zhang, and B. Yang, “Dual personalization on federated recommendation,” in Proceedings of the Thirty-Second International Joint Conference on Artificial Intelligence, 2023, pp. 4558–4566.

[22] Z. Li, G. Long, and T. Zhou, “Federated recommendation with additive personalization,” in The Twelfth International Conference on Learning Representations, 2024. [Online]. Available: https://openreview.net/forum?id=xkXdE81mOK

[23] J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova, “Bert: Pre-training of deep bidirectional transformers for language understanding,” arXiv preprint arXiv:1810.04805, 2018.

[24] Y. Liu, M. Ott, N. Goyal, J. Du, M. Joshi, D. Chen, O. Levy, M. Lewis, L. Zettlemoyer, and V. Stoyanov, “Roberta: A robustly optimized bert pretraining approach,” arXiv preprint arXiv:1907.11692, 2019.

[25] A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold, S. Gelly et al., “An image is worth 16×16 words: Transformers for image recognition at scale,” arXiv preprint arXiv:2010.11929, 2020.

[26] T. Brown, B. Mann, N. Ryder, M. Subbiah, J. D. Kaplan, P. Dhariwal, A. Neelakantan, P. Shyam, G. Sastry, A. Askell et al., “Language models are few-shot learners,” Advances in neural information processing systems, vol. 33, pp. 1877–1901, 2020.

[27] A. Radford, J. W. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, G. Sastry, A. Askell, P. Mishkin, J. Clark et al., “Learning transferable visual models from natural language supervision,” in International conference on machine learning. PMLR, 2021, pp. 8748–8763.

[28] J. Ho, A. Jain, and P. Abbeel, “Denoising diffusion probabilistic models,” Advances in neural information processing systems, vol. 33, pp. 6840–6851, 2020.

[29] J. Ho, C. Saharia, W. Chan, D. J. Fleet, M. Norouzi, and T. Salimans, “Cascaded diffusion models for high fidelity image generation,” Journal of Machine Learning Research, vol. 23, no. 47, pp. 1–33, 2022.

[30] C. Saharia, W. Chan, H. Chang, C. Lee, J. Ho, T. Salimans, D. Fleet, and M. Norouzi, “Palette: Image-to-image diffusion models,” in ACM SIGGRAPH 2022 conference proceedings, 2022, pp. 1–10.

[31] Y. Wang, J. Zhang, and Y. Wang, “Do generated data always help contrastive learning?” arXiv preprint arXiv:2403.12448, 2024.

[32] H. Touvron, T. Lavril, G. Izacard, X. Martinet, M.-A. Lachaux, T. Lacroix, B. Rozière, N. Goyal, E. Hambro, F. Azhar et al., “Llama: Open and efficient foundation language models,” arXiv preprint arXiv:2302.13971, 2023.

[33] M. Oquab, T. Darcet, T. Moutakanni, H. Vo, M. Szafraniec, V. Khalidov, P. Fernandez, D. Haziza, F. Massa, A. El-Nouby et al., “Dinov2: Learning robust visual features without supervision,” arXiv preprint arXiv:2304.07193, 2023.

[34] A. Kirillov, E. Mintun, N. Ravi, H. Mao, C. Rolland, L. Gustafson, T. Xiao, S. Whitehead, A. C. Berg, W.-Y. Lo et al., “Segment anything,” in Proceedings of the IEEE/CVF International Conference on Computer Vision, 2023, pp. 4015–4026.

[35] X. Wang, X. Zhang, Y. Cao, W. Wang, C. Shen, and T. Huang, “Seggpt: Segmenting everything in context,” arXiv preprint arXiv:2304.03284, 2023.
2024 年 6 月 14 日

标签： AGI

LLM 前沿技术跟踪：PagedAttention 升级版 vAttention

PagedAttention 的局限性

vAttention：突破传统内存管理的限制

性能评估

总结

联邦推荐系统与基础模型：迈向个性化推荐的未来