博客

  • 斯坦福最新Sophia优化器比Adam快2倍

    斯坦福大学最近发布了一篇研究论文,提出了一种名为Sophia的新型优化器,用于提高大型语言模型(LLM)的预训练效率。与目前广泛使用的Adam优化器相比,Sophia优化器在预训练GPT-2等模型时可以将训练时间减少约50%。这意味着在相同的预算下,Sophia优化器可以实现更好的预训练损失。该优化器利用轻量级二阶方法,通过对Hessian矩阵对角线的廉价随机估计来作为预调节器,并通过限幅机制来控制最坏情况下的更新大小。

    关键概念

    • Sophia优化器是一种新型优化器,用于提高大型语言模型的预训练效率。与Adam优化器相比,Sophia可以在相同的预训练损失下将训练时间减少约50%。
    • Sophia是一种轻量级二阶优化器,利用Hessian矩阵对角线的廉价随机估计作为预调节器,并通过限幅机制来控制最坏情况下的更新大小。
    • 随着模型尺寸的增加,Sophia相对于Adam的优势变得越来越明显。在相同步数下,Sophia的验证损失优于Adam和Lion。
    • Sophia优化器可以无缝集成到现有的训练流程中,无需对模型架构或计算基础设施进行特殊修改。

    实验结果

    实验结果表明,Sophia优化器在预训练大型语言模型时表现优于Adam和Lion优化器。在相同的步数下,使用Sophia预训练的模型在多数任务上优于使用Adam和Lion预训练的模型。此外,使用Sophia预训练100K步的模型与使用Adam预训练200K步的模型具有相当的性能。这意味着Sophia优化器可以在更短的时间内实现相同或更好的预训练损失。

  • QLoRA: 高效Finetuning 量化 LLMs

    Dettmers提出了一种高效的微调方法QLoRA,它能够在保持完整的16位微调任务性能的同时,将内存使用量降低到足以在单个48GB GPU上微调65B参数模型的程度。

    QLoRA通过在低秩适配器(LoRA)中将梯度反向传播到一个冻结的、4位量化的预训练语言模型。我们最优秀的模型家族,我们将其命名为Guanaco,在Vicuna基准测试中胜过之前所有公开发布的模型,达到了ChatGPT性能水平的99.3%,而仅需要在单个GPU上进行24小时的微调。QLoRA在不牺牲性能的前提下采用了许多创新技术来节省内存:

    (a)4位NormalFloat(NF4),一种对于正态分布权重来说,从信息理论角度具有最优性的新数据类型;

    (b)双重量化,通过量化量化常数来减少平均内存占用;

    (c)分页优化器,以管理内存峰值。我们使用QLoRA对超过1000个模型进行微调,在8个指令数据集中,对多种模型类型(LLaMA,T5)以及在常规微调中难以运行的模型规模(例如33B和65B参数模型)进行了详细的指令跟随和聊天机器人性能分析。

    结果表明,QLoRA在小型高质量数据集上的微调可以达到最先进的结果,即使使用比之前SoTA更小的模型。我们根据人类评估和GPT-4评估结果,对聊天机器人性能进行了详细分析,结果表明GPT-4评估是一种廉价且合理的人类评估替代方案。此外,当前的聊天机器人基准测试并不可靠,无法准确评估聊天机器人的性能水平。已发布了所有模型和代码,包括用于4位训练的CUDA内核。


    artidoro/qlora: QLoRA: Efficient Finetuning of Quantized LLMs (github.com)

人生梦想 - 关注前沿的计算机技术 acejoy.com 🐾 步子哥の博客 🐾 背多分论坛 🐾 借一步网 沪ICP备2024052574号-1