博客

一次神奇的AI旅程：Zephyr-7B模型与Lora训练

大家好，今天我要给大家分享的是关于神奇的Zephyr-7B模型和Lora训练的故事。这是一次跨越三大洲的合作，让我们一起探索这个令人兴奋的AI世界。

Zephyr：直接蒸馏语言模型对齐

在 AI 的世界中，出现了一款名为 Zephyr-7B 的模型，它的出现可谓是一次划时代的突破。那么，Zephyr-7B 是如何诞生的呢？

几个月之前，一个位于巴黎的团队发布了他们的第一个模型：Mistral 7B。这个模型虽然体积小巧，但性能强大，在基准测试中超过了所有同类模型，更令人振奋的是，这是一个开源项目。

然后，Hugging Face H4团队的两名成员在一次小聚中，讨论了使用斯坦福大学新发表的 DPO 方法对 Mistral 7B 这个模型进行微调的可能性。他们在 HF hub 上找到了一些公开的数据集，包括由面壁智能和清华大学 NLP 共同支持的 OpenBMB 开源的两个大规模、高质量的微调数据集：UltraFeedback 和 UltraChat。

UltraFeedback 是一个大规模、多样化、细粒度的偏好数据集。UltraChat 则是高质量的对话数据集，包含了 150 余万条多轮指令数据。

经过几轮实验，使用 OpenBMB 两个数据集训练出来的新模型非常强大，是 H4 团队在伯克利和斯坦福的基准测试中见过的最强模型，并在之后被命名为 Zephyr模型。Zephyr-7B-alpha 的 MT-Bench 平均得分7.09，超越了 Llama2-70B-Chat。

这引发了一个重要的思考：一个基于高质量数据集的 7B 模型竟然打败了参数十倍之大的 LLaMA2-70B-Chat，这说明了什么？这说明，底层的数据工作才是最稀缺的和有时间价值的，这或许是各家各派大模型在百模大战中的突破口之一。

然后我们看到，Zephyr的优秀性能还得归功于使用了由斯坦福大学和CZ Biohub不久前合作提出的 DPO 方法。与传统的 PPO 强化学习方法不同，DPO 方法舍弃了强化学习，要比 PPO 稳定得多。

DPO的简单解释是：它绕过了建模奖励函数，相当于直接在偏好数据上优化模型，它解决了人类反馈的强化学习训练难、训练成本高的问题。

Zephyr-7B-beta的变革

进一步的，开发二代模型 Zephyr-7B-beta 时，团队思考了大模型所用的蒸馏监督微调（dSFT）。然而，用这种方法模型是不对齐的，不能很好地生成符合用户意图的输出。

所以，团队尝试使用AI反馈（AI Feedback，AIF）的偏好数据，用一个“教师模型”对输出进行排名，形成一个数据集，然后应用蒸馏直接偏好优化（dDPO）进行训练。这样，训练出的模型就能更好地对齐用户的意图，生成更好的输出。

Zephyr-7B-beta的测试数据也验证了这种方法的有效性。比对7B版本的模型，这款新模型在MT-Bench上的平均得分达到了7.18，几乎是目前所有模型中的最高分。

低成本训练Zephyr

接下来，我们来看看如何用低成本的方式训练Zephyr。这里就要提到一个名为”alignment-handbook”的项目。

“alignment-handbook”是一个非常实用的项目，为大家提供了全面的训练步骤，包括环境配置、SFT训练、DPO训练等。通过这个指南，你可以方便地在自己的电脑上完成训练。

使用SFT训练，我们可以在预训练模型的基础上进行微调，以达到我们期望的效果。而DPO训练则可以直接在偏好数据上优化模型。这两种训练方法都非常高效，可以在短时间内得到高质量的模型。

Lora训练

最后，我要与大家分享的是Lora训练。Lora是一种新的训练方法，通过给模型添加一些额外的参数，可以让模型的性能得到进一步的提升。

Lora训练虽然需要额外的计算资源，但它可以显著提高模型的性能。所以，如果你有足够的计算资源，我强烈推荐你尝试使用Lora训练。

总结

在这篇文章中，我向大家介绍了Zephyr-7B模型和Lora训练的神奇故事。希望通过这个故事，你能感受到AI技术的魅力，也希望你能够通过学习和实践，将这些技术应用到你的工作和生活中，让AI技术为你带来更多的便利和乐趣。

在未来的日子里，我相信我们会看到更多的突破和创新。让我们期待这个未来，一起探索这个充满无限可能的AI世界。

2023 年 11 月 23 日
带你走进MathJax：让所有浏览器都能美绘数学

大家好，欢迎来到今天的博客，我将向大家介绍一个名为MathJax的神奇工具，它将为你打开一个全新的、美丽的数学世界。对，你没有听错，这是一个能让所有浏览器都能优雅地展示数学公式的工具。无需为了阅读者进行繁琐的设置，一切都如你所愿，就是这么简单！

MathJax：变革者

MathJax，就是它，能够将你的传统印刷内容转化为现代化、易于访问的网页内容和电子书。无论是旧时的文档，还是新的在线内容，MathJax都能轻松转化，为特殊需要的读者提供全面的访问体验。更妙的是，MathJax也可以在服务器端工作流中使用，以准备可离线查看的内容或生成与现代电子书阅读器兼容的文档。只需要一次联系，我们就可以为你的机构提供有关内容转化服务的更多信息。

MathJax：教育者

你们的教育工作需要帮助吗？MathJax团队也是教育家，他们愿意培训你的员工使用我们的资源来准备在线教学材料和创建易于访问的STEM内容。无论是支持在线教学，还是在线考试，MathJax都能提供帮助。我们甚至可以为你的教师、教员和员工提供培训，教他们如何准备全面可访问的数学课程材料。

MathJax：顾问

当然，我们的服务并非只有以上这些。MathJax是一个非常灵活的系统，能够根据任何应用和任何内容的需求进行调整和定制。无论是静态网站还是高动态环境，无论是简单的教学讲义还是科学出版中的精密排版，MathJax都能胜任。不仅如此，我们还关注网页内容、软件解决方案和工作流的无障碍访问，我们会与你的工作人员一起工作，确保你的材料是完全无障碍的。

MathJax：艺术家

MathJax不仅仅是工具，更是艺术的创造者。它使用CSS和网络字体或SVG，而非位图图像或Flash，因此，无论怎样缩放，公式都能与周围的文本保持一致。MathJax的输入和输出模块也极其灵活，可以使用MathML，TeX和ASCIImath作为输入，生成HTML+CSS，SVG或MathML作为输出。而且MathJax与屏幕阅读器兼容，提供表达式缩放和交互式探索，你还可以将公式复制到Office，LaTeX，wiki和其他软件中。

MathJax：无障碍和可重用

MathJax提供了一套强大的无障碍扩展，这些扩展在客户端提供导航、探索和发声。通过MathJax的上下文菜单，你可以访问任何数学表达式的源代码，无论是MathML格式，还是原始的TeX或AsciiMath格式。

是的，这就是MathJax，一个美丽的、无障碍的、可重用的数学显示引擎。它是你的内容变革者，是你的教育者，是你的顾问，也是你的艺术家。让我们一起，用MathJax打造一个美丽、访问性强、充满创新的数学世界！

结语

在本篇博客中，我向大家介绍了MathJax这个神奇的工具。它能够让所有的浏览器都能优雅地展示数学公式，无需为了阅读者进行繁琐的设置，一切都如你所愿。MathJax不仅可以帮助你将传统印刷内容转化为现代化、易于访问的网页内容和电子书，还可以在服务器端工作流中使用，为特殊需要的读者提供全面的访问体验。此外，MathJax团队也是教育家，他们愿意培训你的员工使用我们的资源来准备在线教学材料和创建易于访问的STEM内容。

无论你是老师、学生，还是科研人员，只要你与数学打交道，MathJax都能为你提供帮助。如果你有任何疑问，或者想要了解更多关于MathJax的信息，欢迎联系我们。记住，数学是美丽的，而MathJax，就是展示这种美丽的最佳工具。

感谢你的阅读，我们下次再见！

2023 年 11 月 22 日

博客

一次神奇的AI旅程：Zephyr-7B模型与Lora训练

Zephyr：直接蒸馏语言模型对齐

Zephyr-7B-beta的变革

低成本训练Zephyr

Lora训练

总结

带你走进MathJax：让所有浏览器都能美绘数学

MathJax：变革者

MathJax：教育者

MathJax：顾问

MathJax：艺术家

MathJax：无障碍和可重用

结语