博客

  • QLoRA: 高效Finetuning 量化 LLMs

    Dettmers提出了一种高效的微调方法QLoRA,它能够在保持完整的16位微调任务性能的同时,将内存使用量降低到足以在单个48GB GPU上微调65B参数模型的程度。

    QLoRA通过在低秩适配器(LoRA)中将梯度反向传播到一个冻结的、4位量化的预训练语言模型。我们最优秀的模型家族,我们将其命名为Guanaco,在Vicuna基准测试中胜过之前所有公开发布的模型,达到了ChatGPT性能水平的99.3%,而仅需要在单个GPU上进行24小时的微调。QLoRA在不牺牲性能的前提下采用了许多创新技术来节省内存:

    (a)4位NormalFloat(NF4),一种对于正态分布权重来说,从信息理论角度具有最优性的新数据类型;

    (b)双重量化,通过量化量化常数来减少平均内存占用;

    (c)分页优化器,以管理内存峰值。我们使用QLoRA对超过1000个模型进行微调,在8个指令数据集中,对多种模型类型(LLaMA,T5)以及在常规微调中难以运行的模型规模(例如33B和65B参数模型)进行了详细的指令跟随和聊天机器人性能分析。

    结果表明,QLoRA在小型高质量数据集上的微调可以达到最先进的结果,即使使用比之前SoTA更小的模型。我们根据人类评估和GPT-4评估结果,对聊天机器人性能进行了详细分析,结果表明GPT-4评估是一种廉价且合理的人类评估替代方案。此外,当前的聊天机器人基准测试并不可靠,无法准确评估聊天机器人的性能水平。已发布了所有模型和代码,包括用于4位训练的CUDA内核。


    artidoro/qlora: QLoRA: Efficient Finetuning of Quantized LLMs (github.com)

  • VanillaNet: 极简主义的力量

    最近,一篇名为《VanillaNet: the Power of Minimalism in Deep Learning》的论文引起了广泛关注。该论文提出了一种名为VanillaNet的极简神经网络模型,该模型以其简单的结构和高性能表现出色。VanillaNet使用类似于LeNet和AlexNet的结构来达到或超越现有的视觉骨干网络。

    VanillaNet的核心工作是如何在没有复杂链接和注意力机制的情况下,让一个浅层网络尽可能地提升精度。为了实现这一目标,VanillaNet采用了两个优化策略:深度训练(Deep training)策略和基于级数启发的激活函数。

    在ImageNet上的实验结果显示,6层的VanillaNet可以超过ResNet-34,而13层的VanillaNet在ImageNet上达到了83%的top1精度,超过了几百层网络的性能,同时展示了出色的硬件效率优势。在相同精度时,VanillaNet的速度比Swin-S快了1倍以上。

    该论文的研究成果为浅层神经网络的发展打开了新的大门,让我们重新思考深度神经网络性能提升的关键因素:深度、感受野、注意力机制还是参数量?尽管VanillaNet已在实际业务中得到应用,但它仍有很多提升空间,如预训练、蒸馏、结构优化等。这一成果为未来新架构和新应用带来了无限可能。

人生梦想 - 关注前沿的计算机技术 acejoy.com 🐾 步子哥の博客 🐾 背多分论坛 🐾 借一步网
Page Stats: PV: 1 | UV: 1
Last updated: 2025-05-13 02:45:39
沪ICP备2024052574号-1