博客

  • 探索Zephyr-7B-β:一款掀起LLM新浪潮的强大语言模型

    大家好,今天我要向你们介绍一个在人工智能领域中备受瞩目的明星——Zephyr-7B-β,这是一款性能高超的大型语言模型(LLM)。它的出现不仅改变了我们对AI的认知,更为我们的日常生活带来了无尽的可能。

    Zephyr-7B-β是Zephyr系列的第二个模型,是基于Mistralai/Mistral-7B-v0.1并使用直接偏好优化(DPO)在公开可用的合成数据集上进行训练的微调版本。这款模型在发布时,在MT-Bench和AlpacaEval基准上的表现已经超越了许多其他同类产品,堪称7B类的聊天模型中的佼佼者。

    Zephyr-7B-β:小巧却强大

    虽然Zephyr-7B-β在模型大小上只有7B参数类似GPT的模型,但它在公开可用的合成数据集上进行微调后的性能却令人惊叹。特别是在MT-Bench的多个类别上,与Llama2-Chat-70B等较大的开放模型相比,Zephyr-7B-β具有较强的性能。

    然而,无论任何事物都不可能完美,对于更复杂的任务,如编码和数学等,Zephyr-7B-β的表现仍有待提升。它在这些方面的表现暂时无法与更专业的模型相比,但我们相信,随着研究的深入,这种差距会逐步缩小。

    Zephyr-7B-β:更多的可能性

    Zephyr-7B-β最初是在经过过滤和预处理的UltraChat数据集上进行微调的,这个数据集包含了由ChatGPT生成的各种合成对话。随后,我们在openbmb/UltraFeedback数据集上进一步将模型与TRL的DPOTrainer对齐。这个数据集包含了按GPT-4排名的64k个提示和模型完成情况。

    这就意味着,Zephyr-7B-β可以用于聊天,你可以查看我们的演示来测试其功能。同时,这款模型的代码已经在GitHub上开放,对于有兴趣的同学,可以自行下载研究。

    Zephyr-7B-β:未来的挑战

    然而,我们也需要看到,尽管Zephyr-7B-β的表现在许多方面都非常出色,但它也存在一些问题。例如,它尚未通过RLHF等技术与人类偏好保持一致,也未通过ChatGPT等响应的循环过滤进行部署,因此该模型可能会产生有问题的输出,特别是在提示时。

    此外,尽管我们知道用于训练Zephyr-7B-β的数据集主要包含了由ChatGPT生成的各种合成对话,但我们仍然不清楚用于训练基本模型(mistralai/Mistral-7B-v0.1)的语料库的大小和组成。这些问题都是我们在未来需要解决的挑战。

    Zephyr-7B-β的出现,无疑为我们展示了大型语言模型的强大潜力。通过不断的研究和改进,我们有理由相信,未来的Zephyr系列将会带给我们更多的惊喜~

  • 一次神奇的AI旅程:Zephyr-7B模型与Lora训练

    大家好,今天我要给大家分享的是关于神奇的Zephyr-7B模型和Lora训练的故事。这是一次跨越三大洲的合作,让我们一起探索这个令人兴奋的AI世界。

    Zephyr:直接蒸馏语言模型对齐

    在 AI 的世界中,出现了一款名为 Zephyr-7B 的模型,它的出现可谓是一次划时代的突破。那么,Zephyr-7B 是如何诞生的呢?

    几个月之前,一个位于巴黎的团队发布了他们的第一个模型:Mistral 7B。这个模型虽然体积小巧,但性能强大,在基准测试中超过了所有同类模型,更令人振奋的是,这是一个开源项目。

    然后,Hugging Face H4团队的两名成员在一次小聚中,讨论了使用斯坦福大学新发表的 DPO 方法对 Mistral 7B 这个模型进行微调的可能性。他们在 HF hub 上找到了一些公开的数据集,包括由面壁智能和清华大学 NLP 共同支持的 OpenBMB 开源的两个大规模、高质量的微调数据集:UltraFeedback 和 UltraChat。

    UltraFeedback 是一个大规模、多样化、细粒度 的偏好数据集。UltraChat 则是高质量的对话数据集,包含了 150 余万条多轮指令数据。

    经过几轮实验,使用 OpenBMB 两个数据集训练出来的新模型非常强大,是 H4 团队在伯克利和斯坦福的基准测试中见过的最强模型,并在之后被命名为 Zephyr模型。Zephyr-7B-alpha 的 MT-Bench 平均得分7.09,超越了 Llama2-70B-Chat。

    这引发了一个重要的思考:一个基于高质量数据集的 7B 模型竟然打败了参数十倍之大的 LLaMA2-70B-Chat,这说明了什么?这说明,底层的数据工作才是最稀缺的和有时间价值的,这或许是各家各派大模型在百模大战中的突破口之一。

    然后我们看到,Zephyr的优秀性能还得归功于使用了由斯坦福大学和CZ Biohub不久前合作提出的 DPO 方法。与传统的 PPO 强化学习方法不同,DPO 方法舍弃了强化学习,要比 PPO 稳定得多。

    DPO的简单解释是:它绕过了建模奖励函数,相当于直接在偏好数据上优化模型,它解决了人类反馈的强化学习训练难、训练成本高的问题。

    Zephyr-7B-beta的变革

    进一步的,开发二代模型 Zephyr-7B-beta 时,团队思考了大模型所用的蒸馏监督微调(dSFT)。然而,用这种方法模型是不对齐的,不能很好地生成符合用户意图的输出。

    所以,团队尝试使用AI反馈(AI Feedback,AIF)的偏好数据,用一个“教师模型”对输出进行排名,形成一个数据集,然后应用蒸馏直接偏好优化(dDPO)进行训练。这样,训练出的模型就能更好地对齐用户的意图,生成更好的输出。

    Zephyr-7B-beta的测试数据也验证了这种方法的有效性。比对7B版本的模型,这款新模型在MT-Bench上的平均得分达到了7.18,几乎是目前所有模型中的最高分。

    低成本训练Zephyr

    接下来,我们来看看如何用低成本的方式训练Zephyr。这里就要提到一个名为”alignment-handbook”的项目。

    “alignment-handbook”是一个非常实用的项目,为大家提供了全面的训练步骤,包括环境配置、SFT训练、DPO训练等。通过这个指南,你可以方便地在自己的电脑上完成训练。

    使用SFT训练,我们可以在预训练模型的基础上进行微调,以达到我们期望的效果。而DPO训练则可以直接在偏好数据上优化模型。这两种训练方法都非常高效,可以在短时间内得到高质量的模型。

    Lora训练

    最后,我要与大家分享的是Lora训练。Lora是一种新的训练方法,通过给模型添加一些额外的参数,可以让模型的性能得到进一步的提升。

    Lora训练虽然需要额外的计算资源,但它可以显著提高模型的性能。所以,如果你有足够的计算资源,我强烈推荐你尝试使用Lora训练。

    总结

    在这篇文章中,我向大家介绍了Zephyr-7B模型和Lora训练的神奇故事。希望通过这个故事,你能感受到AI技术的魅力,也希望你能够通过学习和实践,将这些技术应用到你的工作和生活中,让AI技术为你带来更多的便利和乐趣。

    在未来的日子里,我相信我们会看到更多的突破和创新。让我们期待这个未来,一起探索这个充满无限可能的AI世界。

人生梦想 - 关注前沿的计算机技术 acejoy.com 🐾 步子哥の博客 🐾 背多分论坛 🐾 借一步网
Page Stats: PV: 1 | UV: 1
Last updated: 2025-05-15 08:45:49
沪ICP备2024052574号-1