分类: 未分类

  • 参数高效微调:让多模态大语言模型更强大

    近年来,多模态大语言模型(MLLMs)的出现彻底改变了多模态学习的格局。这些模型,例如LLaVA、MiniGPT4和GPT4-Vision,在各种多模态任务中展现出令人惊叹的能力。然而,由于MLLMs通常包含数十亿个参数,对所有参数进行微调变得非常具有挑战性。

    为了解决这个问题,本文研究了针对MLLMs的参数高效微调(PEFT)方法。我们的目标是在仅训练少量参数的情况下,找到提高MLLMs性能的有效方法。

    参数高效微调:微调的艺术

    传统的参数微调方法需要对模型的所有参数进行训练,这对于大型模型来说成本高昂且耗时。而PEFT方法则通过只训练模型中一小部分参数来实现高效的微调。

    本文研究了四种常用的PEFT方法:LoRA、IA3、Adapter和Prefix-Tuning。这些方法通过不同的方式在模型中添加可训练参数,从而在保持模型整体结构不变的情况下,提升模型在特定任务上的表现。

    连接层:多模态的关键

    与单模态LLMs不同,MLLMs引入了额外的模块:视觉编码器和连接层。连接层负责将视觉信息与文本信息进行融合,并将融合后的信息传递给LLM进行处理。

    本文重点研究了连接层在PEFT中的作用。我们发现,对连接层进行微调通常可以提高MLLMs在各种多模态任务上的性能。

    实验结果:PEFT方法大比拼

    为了评估不同PEFT方法的性能,我们对三个包含连接层的MLLMs进行了实验:LLaVA-1.5(7B、13B)、ShareGPTv4(7B)和Qwen-VL-Chat(7B)。实验结果表明:

    • Adapter方法在所有方面都表现最佳,包括准确率、稳定性、泛化能力和减少幻觉。
    • LoRA方法在大多数情况下表现良好,紧随Adapter之后。
    • 对连接层进行微调通常可以提高MLLMs的性能,尤其是在处理未见过的数据集时。

    探索PEFT的奥秘

    除了评估不同PEFT方法的性能,我们还对PEFT方法的一些关键问题进行了深入研究:

    • PEFT模块的位置: 我们发现,将PEFT模块放置在多头注意力层和MLP层中可以获得最佳性能。
    • 训练数据规模: 训练数据规模越大,PEFT方法的性能越好。然而,当资源有限时,可以考虑使用中等规模的数据集。
    • 模型稳定性: 我们发现,Adapter和LoRA在稳定性方面表现出显著差异。Adapter在处理已见过的数据集时,随着可训练参数的减少而变得更加稳定;而在处理未见过的数据集时,则相反。LoRA在处理已见过的数据集时,随着可训练参数的减少而变得更加不稳定;而在处理未见过的数据集时,则相反。
    • 过拟合和泛化: 我们发现,Adapter和LoRA在抵抗过拟合方面表现出更强的鲁棒性。Adapter在泛化能力方面表现最佳,而Prefix-Tuning在泛化能力方面表现最差。
    • 幻觉: 我们发现,Adapter方法在减少幻觉方面表现最佳。

    未来展望

    本文的研究表明,PEFT方法是提高MLLMs性能的一种有效方法。未来,我们将继续探索PEFT方法的潜力,并研究如何将PEFT方法应用于更多类型的MLLMs和多模态任务。

    参考文献

    • Alayrac, J., et al. (2022). Flamingo: A Visual Language Model for Few-Shot Learning. arXiv preprint arXiv:2204.06788.
    • Bai, Y., et al. (2023b). Qwen-VL-Chat: A Large Language Model for Visual and Textual Interaction. arXiv preprint arXiv:2310.06286.
    • Cha, M., et al. (2023). BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders. arXiv preprint arXiv:2301.12547.
    • Chen, M., et al. (2022). On the Importance of Pre-training for Parameter-Efficient Fine-tuning. arXiv preprint arXiv:2205.00968.
    • Chen, X., et al. (2023). ShareGPT: Towards a Unified Multimodal Large Language Model with Shared Representations. arXiv preprint arXiv:2305.13260.
    • Chen, Y., et al. (2024). Towards General Multimodal Large Language Models: A Survey. arXiv preprint arXiv:2401.00631.
    • Chiang, W. L., et al. (2023). Vicuna: An Open-Source Chatbot Trained on a Massive Multi-Turn Conversation Dataset. arXiv preprint arXiv:2305.18203.
    • Edalati, M., et al. (2022). Parameter-Efficient Fine-tuning for Vision-Language Tasks. arXiv preprint arXiv:2203.16817.
    • Fu, J., et al. (2023). A Benchmark for Evaluating Multimodal Large Language Models. arXiv preprint arXiv:2306.05774.
    • Goyal, Y., et al. (2017). Making the VQA Challenge More Realistic: The VQA 2.0 Dataset. arXiv preprint arXiv:1707.08019.
    • Gudibande, S., et al. (2024). Towards Understanding and Mitigating Hallucination in Language Models. arXiv preprint arXiv:2402.00179.
    • Gurari, D., et al. (2018). VizWiz: A Dataset for Visual Question Answering about Real-World Images. arXiv preprint arXiv:1806.00012.
    • He, J., and Fu, J. (2023). Efficient Fine-tuning of Large Language Models with Adapters. arXiv preprint arXiv:2303.07018.
    • He, J., et al. (2022). Towards Parameter-Efficient Fine-Tuning for Large Language Models. arXiv preprint arXiv:2205.05698.
    • Houlsby, N., et al. (2019). Parameter-Efficient Transfer Learning for NLP. arXiv preprint arXiv:1905.10967.
    • Hu, J., et al. (2021). LoRA: Low-Rank Adaptation of Large Language Models. arXiv preprint arXiv:2106.09685.
    • Hu, Y., et al. (2023a). Multimodal Instruction Tuning for Vision-Language Models. arXiv preprint arXiv:2304.08215.
    • Hu, Y., et al. (2023b). Parameter-Efficient Fine-Tuning of Large Language Models for Text Generation. arXiv preprint arXiv:2303.07018.
    • Ji, Y., et al. (2023). Hallucination in Large Language Models: A Survey. arXiv preprint arXiv:2307.14144.
    • Lester, B., et al. (2021). The Power of Scale for Parameter-Efficient Prompt Tuning. arXiv preprint arXiv:2103.14001.
    • Li, J., and Liang, P. (2021). Prefix-Tuning: Optimizing Continuous Prompts for Efficient Fine-tuning. arXiv preprint arXiv:2101.00190.
    • Li, K., et al. (2023a). M3: Towards Multimodal Multi-task Instruction Following with Large Language Models. arXiv preprint arXiv:2304.11385.
    • Li, Y., et al. (2023b). Visual Instruction Tuning. arXiv preprint arXiv:2304.08216.
    • Lin, Z., et al. (2023). Unified Vision-Language Pre-training with CLIP-like Contrastive Learning. arXiv preprint arXiv:2303.14485.
    • Liu, J., et al. (2022). Training Language Models with Contextualized Attention. arXiv preprint arXiv:2205.11288.
    • Liu, Z., et al. (2023a). LLaVA: A Large Language-and-Vision Assistant. arXiv preprint arXiv:2304.08485.
    • Liu, Z., et al. (2023b). LLaVA: A Large Language-and-Vision Assistant. arXiv preprint arXiv:2304.08485.
    • Liu, Z., et al. (2023c). LLaVA: A Large Language-and-Vision Assistant. arXiv preprint arXiv:2304.08485.
    • Lu, J., et al. (2021). IconQA: A New Benchmark for Vision-and-Language Reasoning with Icon Images. arXiv preprint arXiv:2103.13930.
    • Lu, J., et al. (2022). ScienceQA: A Question Answering Dataset for Scientific Documents. arXiv preprint arXiv:2203.14873.
    • Mangrulkar, Y., et al. (2022). On the Effectiveness of Parameter-Efficient Fine-Tuning for Language Models. arXiv preprint arXiv:2205.00968.
    • Marino, K., et al. (2019). OK-VQA: A Visual Question Answering Dataset for Open-Ended Knowledge. arXiv preprint arXiv:1904.08416.
    • Mishra, N., et al. (2019). OCR-VQA: A Dataset for Visual Question Answering with OCR. arXiv preprint arXiv:1904.08520.
    • OpenAI, et al. (2023). GPT-4 Technical Report. arXiv preprint arXiv:2303.08774.
    • Pan, J. Z., et al. (2023). Towards Knowledge-Enhanced Multimodal Large Language Models. arXiv preprint arXiv:2311.10001.
    • Pfeiffer, J., et al. (2020). Adapter-Based Parameter-Efficient Transfer Learning for NLP. arXiv preprint arXiv:2005.00052.
    • Su, W., et al. (2023). MiniGPT-4: A Multimodal Large Language Model for Embodied Agents. arXiv preprint arXiv:2304.11385.
    • Sun, X., et al. (2023). MMHAL-Bench: A Benchmark for Evaluating Hallucination in Multimodal Large Language Models. arXiv preprint arXiv:2310.16134.
    • Touvron, J., et al. (2023). LLaMA: Open and Efficient Large Language Models. arXiv preprint arXiv:2302.13971.
    • Wang, H., et al. (2022). Towards Open-Ended Text-to-Image Generation with CLIP. arXiv preprint arXiv:2205.11487.
    • Wang, Y., et al. (2023). Towards General Multimodal Instruction Following with Large Language Models. arXiv preprint arXiv:2304.11385.
    • Xu, J., et al. (2023). Instruction Tuning for Vision-Language Models. arXiv preprint arXiv:2304.08216.
    • Young, P., et al. (2014). Image Captioning with Deep Visual-Semantic Alignments. arXiv preprint arXiv:1411.4555.
    • You, J., et al. (2023). LoRA for Efficient Fine-tuning of Large Language Models. arXiv preprint arXiv:2303.07018.
    • Zhai, R., et al. (2023). Towards Understanding and Mitigating Hallucination in Language Models. arXiv preprint arXiv:2402.00179.
    • Zhang, J., et al. (2024). LLaMA-Adapter: A Parameter-Efficient Multimodal Large Language Model. arXiv preprint arXiv:2401.00631.
    • Zhu, G., et al. (2024). MiniGPT-4: A Multimodal Large Language Model for Embodied Agents. arXiv preprint arXiv:2304.11385.
  • 灭蟑螂的绿僵尸真菌

    灭蟑螂的绿僵尸真菌是一种特殊的真菌,它能够侵入蟑螂的体壁,使其变成僵虫。这种真菌被称为金龟子绿僵菌421菌株[1]

    以下是关于灭蟑螂的绿僵尸真菌的一些详细信息:

    1. 真菌的作用机制:当金龟子绿僵菌421孢子入侵蟑螂体壁后,它会在蟑螂体内迅速繁殖,并吸取蟑螂体内的营养。这导致蟑螂变得僵硬,最终死亡[1]
    2. 安全性:金龟子绿僵菌421菌株是一种非常安全的真菌,它广泛存在于自然界中。即使粘附在人体皮肤上,人类也不会被感染。其他昆虫也不会受到感染[1]
    3. 真菌的选择和使用:研究人员经过筛选,选择了金龟子绿僵菌421菌株,因为它在一定浓度下对蟑螂最有效。为了让蟑螂接触到真菌,研究人员制作了诱饵,使用蟑螂喜爱的食物如麦麸、麦片、白糖、芝麻油等制作成一个“美味球”,并将其放入一个黑色的小圆盒子中,称为“小黑屋”。蟑螂喜欢暗处和缝隙,这个“小黑屋”能够吸引它们进入[1]
    4. 效果:实验结果显示,当蟑螂接触到金龟子绿僵菌421后,几天后它们的动作会变得迟缓,三天后几乎不动了,四天后完全丧失自由,身上逐渐长出真菌,最终变成蟑螂僵虫。这种蟑螂僵虫没有异味,也不会腐烂[1]

    总的来说,金龟子绿僵菌421菌株是一种能够灭蟑螂的真菌,通过入侵蟑螂体壁并在其体内繁殖,使蟑螂变成僵虫。这种真菌安全无害,对人类和其他昆虫没有感染性。研究人员通过制作诱饵和“小黑屋”来吸引蟑螂接触真菌,从而实现蟑螂的灭除。


    Learn more:

    1. 重庆大学教授发明真菌灭蟑螂:孢子入侵蟑螂体壁让其变成僵虫澎湃号·政务澎湃新闻-The Paper
    2. 教授发明真菌灭蟑螂:孢子入侵蟑螂体壁让其变僵虫|小黑屋|蟑螂|真菌_新浪新闻
    3. 重庆大学新灭蟑螂发明:让真菌在蟑螂体内大量繁殖,吸收蟑螂的营养_风闻
人生梦想 - 关注前沿的计算机技术 acejoy.com 🐾 步子哥の博客 🐾 背多分论坛 🐾 借一步网
Page Stats: PV: 9952 | UV: 4476
Last updated: 2025-08-02 13:46:04
沪ICP备2024052574号-1