分类: 未分类

  • MiLoRA:利用次要奇异成分实现高效的 LLM 微调

    大型语言模型 (LLM) 在各种任务中展现出优异的性能,例如数学推理和问答。这些模型通常在大型网络数据上进行预训练,然后使用指令数据和人类偏好数据进行微调,以适应不同的下游任务。然而,完全微调需要大量的计算资源,限制了 LLM 在不同场景中的应用。

    参数高效微调 (PEFT) 旨在降低预训练模型微调的计算和 GPU 内存成本。低秩自适应 (LoRA) 是最常用的 PEFT 方法之一,它假设线性模型权重的变化是低秩的。对于每个选定的权重矩阵,LoRA 只更新两个低秩矩阵,同时保持原始权重矩阵不变。在推理过程中,低秩矩阵被合并到预训练的线性权重中,因此不会引入额外的计算或内存成本。

    尽管 LoRA 在效率方面表现出色,但它存在一些局限性。现有的 LoRA 方法通常随机初始化低秩矩阵,并在无指导的子空间中优化可训练参数。这种策略可能会覆盖预训练模型中重要的特征,从而影响低秩自适应方法的性能。

    MiLoRA:利用次要奇异成分进行低秩自适应

    为了解决这个问题,本文提出了一种名为 MiLoRA 的简单而有效的 PEFT 方法,它只更新权重矩阵的次要奇异成分,而保持主要奇异成分不变。

    主要奇异成分 对应于权重矩阵中重要的特征,而 次要奇异成分 则包含噪声或长尾信息。MiLoRA 将低秩矩阵初始化在一个与主要矩阵正交的子空间中,从而最大限度地利用次要奇异成分来学习微调数据集,同时保留预训练模型的知识。

    MiLoRA 的工作原理

    1. 分解权重矩阵: 使用奇异值分解 (SVD) 将权重矩阵 W 分解成两个矩阵:主要矩阵 Wp 和次要矩阵 Wm。
    2. 初始化低秩矩阵: 使用次要矩阵 Wm 初始化 LoRA 框架中的低秩矩阵 A 和 B。
    3. 微调: 只更新低秩矩阵 A 和 B,而保持主要矩阵 Wp 不变。

    实验结果

    本文在常识推理、数学推理和指令遵循基准上进行了广泛的实验,结果表明 MiLoRA 始终优于 LoRA 和 PiSSA,而不会牺牲训练或推理效率。

    常识推理: 在 LLaMA2-7B 和 LLaMA3-8B 上,MiLoRA 在八个常识推理数据集上的平均准确率分别提高了 1.6% 和 1.1%。

    数学推理: 在 LLaMA2-7B 上,MiLoRA 在 GSM8K 和 MATH 数据集上的平均准确率分别提高了 1.92% 和 1.76%。

    指令遵循: 在 LLaMA2-7B 上,MiLoRA 在 Alpaca-Eval v1.0 上的胜率达到 87.3%,与 LLaMA2 Chat 7B 的性能相当。

    MiLoRA 的优势

    • 保留预训练知识: 通过保持主要奇异成分不变,MiLoRA 能够有效地保留预训练模型的知识。
    • 高效学习: MiLoRA 只更新次要奇异成分,从而减少了训练参数的数量,提高了训练效率。
    • 简化超参数设置: MiLoRA 不需要调整缩放因子 α 和初始化超参数,只需设置秩 r 即可。

    结论

    MiLoRA 是一种简单而有效的 PEFT 方法,它通过利用次要奇异成分来实现高效的 LLM 微调。实验结果表明,MiLoRA 在各种任务上都取得了优异的性能,同时保留了预训练模型的知识。

    参考文献

    • Hu, J., Shen, Z., Xiong, L., Zhang, S., & He, X. (2021). Lora: Low-rank adaptation of large language models. arXiv preprint arXiv:2106.09685.
    • Meng, X., Wang, Y., Wang, J., Chen, J., & Zhang, M. (2024). PiSSA: Parameter-efficient finetuning with principle singular component adaptation. arXiv preprint arXiv:2404.05636.
    • Touvron, J., Lachaux, M., Izacard, G., Hoffmann, J., & Joulin, A. (2023). Llama: Open and efficient large language models. arXiv preprint arXiv:2302.13971.
    • AI@Meta. (2024). Llama 3: Open and efficient large language models. Retrieved from https://ai.facebook.com/blog/llama-3-open-and-efficient-large-language-models/.

    下一步工作

    • 将 MiLoRA 与其他 LoRA 变体相结合,进一步提高性能。
    • 研究 MiLoRA 在其他任务上的应用,例如机器翻译和代码生成。
    • 探索 MiLoRA 的理论基础,并分析其优越性能的原因。

    Q: 这篇论文试图解决什么问题?

    A: 这篇论文提出了一种名为MiLoRA的新方法,旨在解决大型语言模型(LLMs)的高效微调(finetuning)问题。具体来说,它试图解决以下问题:

    1. 计算和内存成本:传统的全参数微调方法需要大量的计算资源和内存,这限制了大型语言模型在不同场景下的广泛应用。
    2. 知识干扰:以往的基于LoRA(Low-Rank Adaptation)的方法在随机初始化低秩矩阵时,可能会在优化过程中干扰预训练权重矩阵中已经学习到的重要特征。
    3. 参数效率:为了减少微调期间的计算和GPU内存成本,需要一种参数高效的微调方法,以便在保持模型性能的同时减少可训练参数的数量。

    MiLoRA通过仅更新权重矩阵的次要奇异成分(minor singular components),同时保持主要奇异成分(principle singular components)固定,来解决上述问题。这种方法预期能够在微调任务中有效学习,同时更好地保留和利用预训练知识。

    Q: 有哪些相关研究?

    A: 这篇论文提到了多个与参数高效微调(PEFT)相关的研究工作,以下是一些主要的相关研究:

    1. LoRA (Low-Rank Adaptation) (Hu et al., 2021): 一种广泛使用的PEFT方法,通过使用两个可训练的低秩矩阵来重新参数化选定的线性权重的更新。
    2. PiSSA (Meng et al., 2024): 一种与MiLoRA同时期提出的低秩适应方法,它适应主要奇异成分,而不是次要奇异成分。
    3. Adapter-based methods (Houlsby et al., 2019; Pfeiffer et al., 2021a,b): 通过在每个Transformer层中插入额外的可训练前馈子模块来进行参数高效的迁移学习。
    4. Prompt-based methods (Lester et al., 2021; Li & Liang, 2021; Liu et al., 2022): 在输入令牌中添加额外的软提示,在训练期间只更新软提示,而固定预训练模型参数。
    5. AdaLoRA and ALoRA (Zhang et al., 2023; Liu et al., 2024b): 自适应地确定每个权重矩阵中LoRA模块的秩,根据重要性分数调整秩。
    6. rsLoRA (Kalajdzievski, 2023): 通过适当的缩放因子改进LoRA,以提高大秩性能。
    7. DoRA (Liu et al., 2024a): 将预训练权重分解为幅度和方向组件,然后对两者进行微调以获得更好的性能。
    8. VeRA (Kopiczko et al., 2024): 通过在所有层之间共享一对低秩矩阵,与LoRA相比减少了可训练参数的数量。

    这些研究工作为大型语言模型的参数高效微调提供了多种方法和思路,而MiLoRA则是在此基础上提出的新方法,旨在通过特定的方式来平衡学习新任务和保留预训练知识。

    Q: 论文如何解决这个问题?

    A: 论文通过提出MiLoRA(Minor singular component based Low Rank Adaptation)方法来解决大型语言模型(LLMs)的高效微调问题。MiLoRA的核心思想和解决策略如下:

    1. 奇异值分解(SVD):首先对权重矩阵进行SVD分解,将其分为主要矩阵(Wp)和次要矩阵(Wm),其中Wp对应于较大的奇异值,而Wm对应于较小的奇异值。
    2. 保留主要矩阵:论文假设主要矩阵Wp包含了预训练知识的核心部分,因此在微调过程中保持Wp固定,以保留重要的预训练知识。
    3. 初始化低秩矩阵:将次要矩阵Wm用于初始化LoRA框架中的低秩矩阵A和B。这样,可训练的低秩矩阵在与主要矩阵正交的子空间内初始化,预期能够在学习微调任务的同时,更好地利用和保留预训练知识。
    4. 简化的超参数:与标准LoRA方法相比,MiLoRA不需要调整缩放因子α和其他初始化超参数,仅需要设置秩r,这简化了训练过程。
    5. 实验验证:通过在常识推理、数学推理和指令跟随等多个基准测试上的广泛实验,论文证明了MiLoRA在保持训练和推理效率的同时,能够持续超越LoRA和其他PEFT方法。
    6. 性能提升:实验结果显示,MiLoRA在不同任务上均取得了性能提升,例如在常识推理任务上,MiLoRA在LLaMA2-7B和LLaMA3-8B模型上分别取得了1.6%和1.1%的平均准确率提升。

    通过这些策略,MiLoRA旨在实现在微调过程中对大型语言模型的有效调整,同时最大限度地减少对已有预训练知识的干扰,以此提高微调的效率和效果。

    Q: 论文做了哪些实验?

    A: 论文中进行了一系列实验来评估MiLoRA方法的有效性,并与其他参数高效微调(PEFT)方法进行比较。以下是论文中提到的主要实验:

    1. 常识推理(Commonsense Reasoning)
      • 使用LLaMA2-7B和LLaMA3-7B模型在Commonsense170K数据集上进行微调。
      • 评估数据集包括BoolQ、PIQA、SIQA、HellaSwag、WinoGrande、ARC-e、ARC-c和OBQA等八个常识推理数据集。
      • 任务被制定为多项选择问题,通过验证集损失选择最佳检查点,并报告所有数据集的准确率。
    2. 数学推理(Math Reasoning)
      • 使用LLaMA2-7B模型在MetaMathQA数据集上进行微调,该数据集包含从GSM8K和MATH数据集扩展的样本。
      • 使用GSM8K和MATH的测试集进行评估,报告最后一个检查点的精确匹配比率。
    3. 指令跟随(Instruction-following)
      • 按照Wu等人(2024a)和Wu等人(2024b)的实验设置,使用Ultrafeedback对LLaMA2-7B进行微调。
      • 使用Alpaca-Eval v1.0进行评估,并报告与text-davinci-003使用GPT4-0613作为注释器的胜率。
    4. 不同秩设置对MiLoRA的影响
      • 通过调整秩r的不同配置(16, 32, 64, 128),评估不同秩设置对MiLoRA在数学推理任务上的影响。
    5. 次要奇异分量适应的重要性
      • 通过使用主要、随机采样和次要奇异分量初始化低秩矩阵A和B,评估它们在数学推理任务上的性能。
    6. 矩阵更新∆W与W的比较
      • 分析不同方法中∆W(微调前后权重的差异)与W(预训练权重)之间的关系。
    7. MiLoRA与其他基线方法的遗忘损失比较
      • 使用交叉熵作为度量标准,评估MiLoRA与其他方法相比在保留预训练知识方面的表现。
    8. MiLoRA与PiSSA的比较
      • 比较MiLoRA与PiSSA在相同实验设置下的性能,探讨两者在动机、性能和超参数配置方面的差异。

    这些实验结果表明,MiLoRA在多个任务和数据集上均能实现优于现有PEFT方法的性能,同时保持了训练和推理的效率。

    Q: 有什么可以进一步探索的点?

    A: 尽管MiLoRA在实验中表现出色,但仍有一些潜在的研究方向和探索点,包括但不限于:

    1. 不同模型的适用性:MiLoRA主要在LLaMA模型族上进行了测试。未来的工作可以探索MiLoRA在其他大型语言模型(如GPT、T5等)上的有效性和适用性。
    2. 不同任务的泛化能力:除了常识推理、数学推理和指令跟随任务外,MiLoRA在其他类型的任务(如文本摘要、机器翻译、情感分析等)上的表现如何,值得进一步研究。
    3. 超参数优化:虽然MiLoRA减少了需要调整的超参数数量,但进一步研究如何根据具体任务和数据集自动调整这些超参数可能会提高性能。
    4. 与其他PEFT方法的结合:MiLoRA是否可以与其他参数高效微调方法(如Adapter、Prompt等)结合,以实现更优的性能,是一个值得探索的方向。
    5. 理论分析:对MiLoRA的理论基础进行更深入的分析,包括其在优化过程中对预训练知识保留的机理,以及为何次要奇异分量更适应微调任务。
    6. 计算效率:尽管MiLoRA旨在减少计算资源的需求,但进一步优化算法以提高训练速度和减少内存使用仍然是一个有价值的研究方向。
    7. 实际应用:在实际应用场景中测试MiLoRA,例如在资源受限的环境中,或者在需要快速部署和更新模型的情境下。
    8. 模型鲁棒性:研究MiLoRA在面对对抗性攻击或数据分布偏移时的鲁棒性,并探索提高模型稳定性的方法。
    9. 可解释性:提高MiLoRA微调过程的可解释性,帮助研究人员和用户理解模型是如何学习和适应新任务的。
    10. 伦理和社会影响:研究MiLoRA在不同应用中可能带来的伦理和社会影响,以及如何制定相应的指导原则和政策来确保技术的正当使用。

    这些探索点不仅可以推动MiLoRA方法本身的发展,也有助于更广泛地理解和改进大型语言模型的微调策略。

    Q: 总结一下论文的主要内容

    A: 这篇论文的主要内容可以总结如下:

    1. 问题背景:大型语言模型(LLMs)在各种任务上表现出色,但全参数微调需要大量计算资源,限制了它们的广泛应用。
    2. 研究目标:提出一种参数高效的微调方法MiLoRA,以减少计算和内存成本,同时保留预训练模型的知识。
    3. 方法介绍
      • 使用奇异值分解(SVD)将权重矩阵分为主要矩阵和次要矩阵。
      • 在微调过程中,保持主要矩阵固定,只更新次要矩阵对应的低秩矩阵。
    4. MiLoRA的优势
      • 通过初始化低秩矩阵在与主要矩阵正交的子空间内,减少对预训练知识的干扰。
      • 简化了超参数调整,只需设置秩r。
    5. 实验验证
      • 在常识推理、数学推理和指令跟随等任务上进行了广泛的实验。
      • 实验结果表明,MiLoRA在多个数据集上均优于LoRA和其他PEFT方法。
    6. 性能提升:MiLoRA在不同任务上实现了性能提升,如在常识推理任务上提高了平均准确率。
    7. 进一步分析
      • 探讨了不同秩设置对MiLoRA性能的影响。
      • 分析了次要奇异分量适应的重要性。
      • 对比了MiLoRA与现有方法在矩阵更新和知识遗忘方面的差异。
    8. 相关工作:讨论了参数高效微调的相关研究,包括Adapter-based、LoRA-based和Prompt-based方法。
    9. 结论:MiLoRA是一个简单而有效的低秩适应方法,能够在微调任务中有效学习,同时更好地保留预训练知识。
    10. 未来工作:提出了对MiLoRA在其他任务和其他LLMs上进一步探索的可能性,以及对计算效率、模型鲁棒性和伦理影响的考量。

    论文通过提出MiLoRA方法,为大型语言模型的高效微调提供了一种新的视角,并在多个任务上验证了其有效性。


  • 幕府(日本):日本历史上的武家政权

    幕府(Bakufu)是指日本历史上由征夷大将军(通常称为幕府将军)领导的武家政权。这种政治体制在日本特有的国情下形成,共经历了682年的历史,从1185年源平合战结束时开始,到1867年明治维新时结束。

    幕府政权实际上是一种将天皇权力架空的政府形式,由将军及其家族掌握实际统治权。虽然征夷大将军需要经由天皇任命,被视为天皇的臣子,但大多数征夷大将军职位都是世袭的。他们实际上掌握了政权,超越了朝廷体系。随着时间的推移,幕府逐渐成为朝廷体系内的一部分。封建制度的实行使得征夷大将军并不直接统治全国,而是将领土分封给有力的武士,征夷大将军的地位相当于天下之共主,实际上是以“挟天子以令诸侯”的方式治理国家。尽管幕府将军是天皇的臣子,但他们实际上以武力统治国家。

    幕府这种特殊的政治体制在日本历史上起到了重要作用。幕府将军通过颁布各种法令和政策,调节地方事务、维持社会秩序,并为国家的统一和稳定做出了贡献。然而,幕府政权也面临着许多挑战和内外压力,例如与其他大名的斗争、与外国势力的交涉等。

    在幕府的历史中,镰仓幕府、室町幕府和江户幕府是三个重要时期。镰仓幕府建立于1185年,由源义经成为第一位征夷大将军,标志着武士阶层的政治崛起。然而,镰仓幕府在不断的内部纷争和外部压力下,于1333年被足利尊氏领导的室町幕府推翻。室町幕府成立后,日本进入了一个相对稳定的时期,但内部斗争和战争仍时有发生。

    最后,江户幕府于1603年由德川家康建立,也被称为德川幕府。在这个时期,由于德川家康的巧妙统治和稳定的政策,日本进入了一个相对长期的和平时期。江户幕府统治下的日本社会经历了许多变革和发展,包括城市的繁荣、文化的繁盛和社会制度的变革。


    总的来说,幕府是日本历史上一种独特的政治体制,将军作为实际统治者,通过领导和管理国家事务,维持社会秩序。幕府政权的崛起和发展对日本历史产生了深远的影响,


    镰仓幕府(1192年-1333年)是日本历史上第一个幕府政权,位于鎌倉市,因此得名。镰仓幕府的统治时间约为150年,这段时期也被称为镰仓时代。镰仓幕府的建立者是源赖朝,属于河内源氏一族。后来,北条时政和北条义时等人成为镰仓幕府的中心人物。镰仓幕府的建立标志着日本从中央贵族政权向武家政权的转变。

    镰仓幕府的建立过程可以概括如下:在治承三年政变之后,平清盛建立了平氏政权,但朝廷与民众对其专权统治感到愤慨。1180年,源赖朝举兵反对平氏政权,平氏政权在源平合战中被推翻。赖朝在战争中击败了贵族平宗盛家族,并逼迫其兄弟源义经自杀。赖朝成为了实际上的统治者,并在1192年被任命为征夷大将军,正式建立了镰仓幕府。幕府通过在各地设置守护和地头职位来确保对全国的控制,并逐渐扩大对土地的实际支配权。

    在镰仓幕府的统治下,武士阶层崛起并取代了中央贵族成为实际的统治者。武士阶层崇尚武士道精神,强调忠诚、义勇、廉耻等价值观,并将儒学、佛教禅宗和神道教合而为一。然而,随着时间的推移,镰仓幕府内部权力斗争加剧,导致幕府的统治基础逐渐动摇。

    镰仓幕府最终走向衰败的原因有多个方面,其中包括承久之乱(1221年)和元寇战争(1274年-1281年)的冲击。承久之乱是一次由后鳥羽上皇领导的对镰仓幕府的叛乱,虽然失败了,但削弱了幕府的实力。元寇战争是日本与蒙古帝国的战争,幕府成功抵御了外敌入侵,但也因此耗尽了大量资源。此外,幕府内部的权力斗争和民众对幕府专制统治的不满也加剧了幕府的衰落。

    最终,在1333年,幕府面临着各地豪族的反幕府倒幕运动。新田义贞在关东起兵,攻克了鎌倉,北条守时和北条高时相继自杀,标志着镰仓幕府的灭亡。随后,建武新政和南北朝时代的动荡期开始,日本进入了新的政治时代。


人生梦想 - 关注前沿的计算机技术 acejoy.com 🐾 步子哥の博客 🐾 背多分论坛 🐾 借一步网
Page Stats: PV: 9328 | UV: 4287
Last updated: 2025-07-26 19:59:14
沪ICP备2024052574号-1