分类：未分类

化繁为简：垂直LoRA，让Transformer模型更轻盈
近年来，Transformer模型在自然语言处理领域掀起了一场革命，其强大的能力让世人惊叹。但随着模型规模不断扩大，训练和部署这些庞然大物也变得越来越困难，尤其对于个人用户和小型机构来说。

为了解决这一难题，研究者们提出了各种解决方案，其中低秩分解成为了一个重要的方向。LoRA[7] 就是一个典型的例子，它通过在预训练模型的每一层学习一个低秩增量来实现高效的微调。

本文则更进一步，提出了一个全新的模型设计范式——垂直LoRA (VLoRA)[7]。它基于一个全新的视角：将Transformer模型看作是密集型期望最大化（EM）算法[7]。

Transformer：隐藏的EM算法

在监督学习中，Transformer模型的目标是最大化后验概率 $P(y|x;\theta)$ ，其中 $x$ 是输入， $y$ 是标签， $\theta$ 是模型参数。本文指出，Transformer模型的每一层实际上都是EM算法的一次迭代，前向传播对应于E步，而下一层与当前层权重差异则对应于M步。

这个发现揭示了Transformer模型中一个重要的规律：每一层都是基于前一层学习一个增量。而正是基于这一规律，VLoRA应运而生。

VLoRA：垂直分解，层层递进

VLoRA 首先定义一个全秩基层，然后每一层都基于上一层学习一个低秩增量，并使用LoRA分解来逼近这个增量。这种垂直分解的方式，使得模型参数数量大幅减少，同时保留了原始模型的性能。

与传统的水平LoRA相比，VLoRA 更加高效，因为它减少了模型的总体参数，而不是仅仅针对微调阶段。

实验验证：性能提升，更少参数

本文在图像分类任务上进行了实验，使用 CIFAR-10 数据集[31] 对 12 层的 Vision Transformer[32] 进行了训练，并比较了其 VLoRA 版本的性能。

实验结果表明：
- VLoRA 版本的训练损失和准确率虽然略低于原始模型，但在评估阶段却展现出更强的泛化能力，不容易过拟合。
- VLoRA 版本的最佳评估指标与原始模型几乎相同，但参数数量却大幅减少。
- 即使使用较小的低秩（例如 r=2），VLoRA 依然能有效地对每一层的权重增量进行建模。
未来展望：更轻盈，更强大

VLoRA 的出现，为构建更轻盈、更强大的 Transformer 模型提供了新的思路。它不仅可以用于降低模型的训练和部署成本，还可以提升模型的泛化能力，使其在更多场景下发挥作用。

参考文献

[1] Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever, et al. Language models are unsupervised multitask learners. OpenAI blog, 1(8):9, 2019.

[2] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. Language models are few-shot learners. Advances in neural information processing systems, 33:1877–1901, 2020.

[3] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805, 2018.

[4] Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, et al. Llama 2: Open foundation and fine-tuned chat models. arXiv preprint arXiv:2307.09288, 2023.

[5] Anthropic. The claude 3 model family: Opus, sonnet, haiku, 2024.

[6] Tim Dettmers, Artidoro Pagnoni, Ari Holtzman, and Luke Zettlemoyer. Qlora: Efficient finetuning of quantized llms. Advances in Neural Information Processing Systems, 36, 2024.

[7] Edward J Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, and Weizhu Chen. Lora: Low-rank adaptation of large language models. arXiv preprint arXiv:2106.09685, 2021.

[8] Neil Houlsby, Andrei Giurgiu, Stanislaw Jastrzebski, Bruna Morrone, Quentin De Laroussilhe, Andrea Gesmundo, Mona Attariyan, and Sylvain Gelly. Parameter-efficient transfer learning for nlp. In International conference on machine learning, pages 2790–2799. PMLR, 2019.

[9] Jonas Pfeiffer, Aishwarya Kamath, Andreas Rückl, Kyunghyun Cho, and Iryna Gurevych. Adapterfusion: Non-destructive task composition for transfer learning. arXiv preprint arXiv:2005.00247, 2020.

[10] Qingru Zhang, Minshuo Chen, Alexander Bukharin, Pengcheng He, Yu Cheng, Weizhu Chen, and Tuo Zhao. Adaptive budget allocation for parameter-efficient fine-tuning. In The Eleventh International Conference on Learning Representations, 2023.

[11] Sinong Wang, Belinda Z Li, Madian Khabsa, Han Fang, and Hao Ma. Linformer: Self-attention with linear complexity. arXiv preprint arXiv:2006.04768, 2020.

[12] Xiang Lisa Li and Percy Liang. Prefix-tuning: Optimizing continuous prompts for generation. arXiv preprint arXiv:2101.00190, 2021.

[13] Xiao Liu, Kaixuan Ji, Yicheng Fu, Weng Lam Tam, Zhengxiao Du, Zhilin Yang, and Jie Tang. P-tuning v2: Prompt tuning can be comparable to fine-tuning universally across scales and tasks. arXiv preprint arXiv:2110.07602, 2021.

[14] Brian Lester, Rami Al-Rfou, and Noah Constant. The power of scale for parameter-efficient prompt tuning. arXiv preprint arXiv:2104.08691, 2021.

[15] Nikita Kitaev, Łukasz Kaiser, and Anselm Levskaya. Reformer: The efficient transformer. arXiv preprint arXiv:2001.04451, 2020.

[16] Jialin Li, Qiang Nie, Weifu Fu, Yuhuan Lin, Guangpin Tao, Yong Liu, and Chengjie Wang. Lors: Low-rank residual structure for parameter-efficient network stacking. arXiv preprint arXiv:2403.04303, 2024.

[17] Misha Denil, Babak Shakibi, Laurent Dinh, Marc Aurelio Ranzato, and Nando De Freitas. Predicting parameters in deep learning. Advances in neural information processing systems, 26, 2013.

[18] Armen Aghajanyan, Luke Zettlemoyer, and Sonal Gupta. Intrinsic dimensionality explains the effectiveness of language model fine-tuning. arXiv preprint arXiv:2012.13255, 2020.

[19] Chunyuan Li, Heerad Farkhoor, Rosanne Liu, and Jason Yosinski. Measuring the intrinsic dimension of objective landscapes. arXiv preprint arXiv:1804.08838, 2018.

[20] Max Jaderberg, Andrea Vedaldi, and Andrew Zisserman. Speeding up convolutional neural networks with low rank expansions. arXiv preprint arXiv:1405.3866, 2014.

[21] Tara N Sainath, Brian Kingsbury, Vikas Sindhwani, Ebru Arisoy, and Bhuvana Ramabhadran. Low-rank matrix factorization for deep neural network training with high-dimensional output targets. In 2013 IEEE international conference on acoustics, speech and signal processing, pages 6655–6659. IEEE, 2013.

[22] Xiangyu Zhang, Jianhua Zou, Kaiming He, and Jian Sun. Accelerating very deep convolutional networks for classification and detection. IEEE transactions on pattern analysis and machine intelligence, 38(10):1943–1955, 2015.

[23] Jian Xue, Jinyu Li, and Yifan Gong. Restructuring of deep neural network acoustic models with singular value decomposition. In Interspeech, pages 2365–2369, 2013.

[24] Emily L Denton, Wojciech Zaremba, Joan Bruna, Yann LeCun, and Rob Fergus. Exploiting linear structure within convolutional networks for efficient evaluation. Advances in neural information processing systems, 27, 2014.

[25] Vadim Lebedev, Yaroslav Ganin, Maksim Rakhuba, Ivan Oseledets, and Victor Lempitsky. Speeding-up convolutional neural networks using fine-tuned cp-decomposition. arXiv preprint arXiv:1412.6553, 2014.

[26] Yong-Deok Kim, Eunhyeok Park, Sungjoo Yoo, Taelim Choi, Lu Yang, and Dongjun Shin. Compression of deep convolutional neural networks for fast and low power mobile applications. arXiv preprint arXiv:1511.06530, 2015.

[27] Xiangdi Meng, Damai Dai, Weiyao Luo, Zhe Yang, Shaoxiang Wu, Xiaochen Wang, Peiyi Wang, Qingxiu Dong, Liang Chen, and Zhifang Sui. Periodiclora: Breaking the low-rank bottleneck in lora optimization. arXiv preprint arXiv:2402.16141, 2024.

[28] Yang Lin, Xinyu Ma, Xu Chu, Yujie Jin, Zhibang Yang, Yasha Wang, and Hong Mei. Lora dropout as a sparsity regularizer for overfitting control. arXiv preprint arXiv:2404.09610, 2024.

[29] Soufiane Hayou, Nikhil Ghosh, and Bin Yu. Lora+: Efficient low rank adaptation of large models. arXiv preprint arXiv:2402.12354, 2024.

[30] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770–778, 2016.

[31] Alex Krizhevsky, Geoffrey Hinton, et al. Learning multiple layers of features from tiny images. 2009.

[32] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. An image is worth 16×16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929, 2020.
2024 年 6 月 15 日
KAN网络：深度学习的新希望

近年来，深度学习技术取得了长足的进步，多层感知机（MLP）作为其基础模型，在图像识别、自然语言处理等领域发挥着重要作用。然而，MLP也存在着一些局限性，例如可解释性差、容易受到维度灾难的影响等。

为了克服这些问题，麻省理工学院等机构的研究人员提出了一种全新的神经网络模型——KAN网络，即Kolmogorov-Arnold Networks（科尔莫戈洛夫-阿诺德网络）。KAN网络的设计灵感源于著名的科尔莫戈洛夫-阿诺德表示定理，该定理表明任何多元连续函数都可以表示为单变量函数的有限组合和加法运算。

KAN网络的独特之处

与MLP不同，KAN网络将可学习的激活函数放置在连接节点的边上，而不是节点本身。这意味着KAN网络没有线性权重矩阵，而是使用可学习的样条函数来代替每个权重参数。这种看似简单的改变，却赋予了KAN网络强大的能力。

1. 准确性： KAN网络可以用更小的模型达到与更大的MLP相当甚至更好的准确性。这得益于它能够有效地学习组合结构和单变量函数，从而克服了维度灾难的影响。

2. 可解释性： KAN网络的结构非常直观，可以轻松地可视化，并且可以与人类用户进行交互。这使得科学家能够更好地理解模型的内部机制，并将其用于科学发现。

数学知识

为了更好地理解KAN网络的数学基础，以下是一些关键的数学知识：

科尔莫戈洛夫-阿诺德表示定理

科尔莫戈洛夫-阿诺德表示定理是KAN网络的理论基础。该定理指出，对于任何连续的多元函数 ( f: \mathbb{R}^n \to \mathbb{R} )，存在 ( 2n+1 ) 个单变量函数 ( \phi_i ) 和 ( \psi ) ，使得：
[ f(x_1, x_2, \ldots, x_n) = \sum_{i=1}^{2n+1} \psi \left( \sum_{j=1}^n \phi_{ij}(x_j) \right). ]

这个定理表明，任何多元函数都可以通过有限数量的单变量函数和加法来表示。这为KAN网络提供了理论支持，使得它能够表示复杂的多元函数。

样条函数

样条函数是KAN网络中的关键组件。样条函数是一种分段定义的多项式函数，通常用于数据拟合和插值。样条函数的形式为：
[ S(x) = \sum_{i=0}^{k} a_i B_i(x), ]
其中 ( B_i(x) ) 是基函数， ( a_i ) 是系数。样条函数的灵活性和连续性使其非常适合用作神经网络中的可学习参数。

KAN网络的应用

研究人员在数学和物理学领域进行了大量的实验，证明了KAN网络的巨大潜力。

1. 数学领域： 在结理论中，KAN网络可以帮助科学家重新发现结不变量的关系，并推导出新的定理。

2. 物理领域： 在凝聚态物理学中，KAN网络可以帮助科学家提取准周期紧束缚模型的迁移率边缘，并理解安德森局域化现象。

KAN网络的未来展望

尽管KAN网络已经展现出巨大的潜力，但它仍然处于发展阶段，未来还有很多值得探索的方向。

1. 数学基础： 目前对KAN网络的数学理解还很有限，需要进一步研究其数学基础，特别是对于深层KAN网络的数学分析。

2. 算法优化： KAN网络的训练速度较慢，需要进一步优化算法，提高训练效率。

3. 应用扩展： KAN网络可以应用于更多领域，例如流体力学、密度泛函理论等，并与现有的深度学习架构（例如Transformer）进行整合。

总而言之，KAN网络是一种具有巨大潜力的深度学习模型，它结合了样条函数和MLP的优点，在准确性和可解释性方面都表现出色。随着

2024 年 6 月 15 日

分类： 未分类

化繁为简：垂直LoRA，让Transformer模型更轻盈

Transformer：隐藏的EM算法

VLoRA：垂直分解，层层递进

实验验证：性能提升，更少参数

未来展望：更轻盈，更强大

参考文献

KAN网络：深度学习的新希望

KAN网络的独特之处

数学知识

科尔莫戈洛夫-阿诺德表示定理

样条函数

KAN网络的应用

KAN网络的未来展望

分类：未分类