博客

以强化学习让生成模型更符合人类审美：DDPO与TRL的完美结合

亲爱的读者，你是否曾经想过，我们能否让人工智能生成的图片更符合人类的审美呢？今天，我们就要带你探索这个问题的答案。我们将介绍如何使用DDPO（Denoising Diffusion Policy Optimization）通过TRL（Transformers Library）微调稳定扩散模型，从而使AI生成的图像更符合人类的审美。这是一场充满挑战与创新的神经网络冒险之旅，让我们一起启程吧！

一、DDPO与微调扩散模型的优势

首先，我们必须理解的是，DDPO不是微调扩散模型的唯一方法，但它的优势却是显而易见的。以计算效率和准确性为首的一系列特点，使得DDPO成为了扩散模型微调的理想选择。相比于之前的方法，DDPO将去噪步骤视为一个多步马尔可夫决策过程（MDP），并在最终获得奖励。这种全新的方法，使得代理策略能够成为一个各向同性的高斯分布，而不是一个复杂的分布。因此，DDPO不仅提高了计算效率，还减少了误差的堆积，为我们提供了更精准的结果。

二、DDPO算法简述

DDPO算法主要使用了一种策略梯度方法，即近端策略优化（PPO）。在使用PPO的过程中，我们注意到，DDPO算法的独特之处主要体现在轨迹收集部分。为了更好地理解这个过程，我们提供了一个简单的流程图，帮助你理解DDPO在动作中的运作方式。

三、DDPO与RLHF：增强审美性的混合

了解了DDPO的工作原理后，我们会发现，将DDPO与RLHF（Reinforcement Learning from Human Feedback）结合起来，可以更有效地让模型的输出符合人类的审美。在这个过程中，我们首先使用预训练的扩散模型，然后收集人类偏好的数据并使用它来训练奖励模型，最后使用DDPO和奖励模型进行微调。这个过程不仅高效，而且结果非常令人满意，得到的图像更符合人类审美。

四、使用DDPO训练稳定扩散模型

让我们深入了解一下如何使用DDPO训练稳定扩散模型。首先，你需要具备一定的硬件条件，例如拥有一台A100 NVIDIA GPU。然后，安装trl库和其他一些必要的依赖。在设置完硬件和软件环境后，你就可以开始实际的训练过程了。

我们的训练过程主要使用了trl库中的DDPOTrainer和DDPOConfig类。我们提供了一个示例训练脚本，该脚本利用这两个类和一些默认参数，对预训练的稳定扩散模型进行微调。在训练过程中，我们使用了一种审美奖励模型，该模型的权重是从公开的HuggingFace仓库中读取的。因此，你不需要自己收集数据和训练审美奖励模型。

最后，我们通过python命令启动训练脚本，然后就可以看到训练过程的实时输出了。这个过程可能需要一些时间，所以请耐心等待。完成训练后，你就可以使用微调后的模型生成新的图像了。

五、总结

今天，我们一起探讨了如何使用DDPO通过TRL微调稳定扩散模型。在这个过程中，我们深入了解了DDPO的优势和工作原理，以及如何将其与RLHF结合起来，以便更好地使模型的输出符合人类的审美。我们还详细介绍了使用DDPO训练稳定扩散模型的具体步骤。

2023 年 11 月 2 日
让人工智能向无穷无尽的流畅表达迈进 — 探索“注意力吸收器”

在我们日常的对话中，有没有想过让人工智能（AI）也能如人类一样自由流畅地进行长时间的交流？今天，我们将一同探索一种新的技术——“注意力吸收器”，它可能会引领我们走向这个目标。

为何我们需要“注意力吸收器”？

大规模语言模型（LLMs）近年来引领了聊天机器人和虚拟助手的技术进步，但是，它们也存在一些限制。这些限制主要体现在两个方面：视频随机存取内存（VRAM）的使用和流畅度的丧失。

当我们使用LLMs进行长时间的对话时，模型的VRAM使用会呈线性增长，这可能会导致设备的内存限制。另一方面，当输入的内容过长，模型的表达流畅度会明显下降，表现为生成无意义的字符，或者重复的词汇。为了解决这些问题，我们研究了一种名为“注意力吸收器”的方法。

窗口注意力：一种尝试解决方法

为了解决VRAM使用问题，我们可以尝试限制输入到LLM的令牌数量，这种方法被称为窗口注意力。

在实验中，我们将窗口大小设置为1024个令牌。结果显示，虽然这种方法可以保持内存的稳定使用，但是一旦超过窗口大小，模型的表达能力就会显著下降。

注意力吸收器：新的解决思路

2023年，Xiao等人发现，当应用窗口注意力时，模型在窗口中的第一个令牌被移除后，模型的流畅度立即下降。他们注意到，即使是语义上不重要的令牌，也会占据大量的注意力分数。他们将这些令牌称为“注意力吸收器”。

基于这个发现，他们提出了一种改进的窗口注意力方法，即在窗口中始终保留初始的四个令牌，也就是“注意力吸收器”。这种方法有效地解决了窗口注意力中的一个关键问题：当第一个令牌从窗口中移除时，模型无法将注意力分数转移到该令牌上，从而导致模型失去流畅度。

结论：注意力吸收器的威力

我们使用注意力吸收器进行了实验，结果显示，使用注意力吸收器的LLMs同时具备了稳定的空间复杂度和流畅的表达能力。这表明，使用注意力吸收器，我们的模型可以保持流畅的表达，直到我们的数据耗尽。

注意力吸收器让我们的AI更接近无穷无尽的流畅表达。尽管这仍然是一个新的领域，但我们希望这种方法能够推动AI技术的前进，为我们的日常生活带来更多的便利。

在未来，我们期待看到更多的研究者和开发者参与到这个领域中来，共同推动AI技术的发展，让我们的AI可以更好地理解我们，更好地服务我们。

2023 年 11 月 2 日

博客

以强化学习让生成模型更符合人类审美：DDPO与TRL的完美结合

一、DDPO与微调扩散模型的优势

二、DDPO算法简述

三、DDPO与RLHF：增强审美性的混合

四、使用DDPO训练稳定扩散模型

五、总结

让人工智能向无穷无尽的流畅表达迈进 — 探索“注意力吸收器”

为何我们需要“注意力吸收器”？

窗口注意力：一种尝试解决方法

注意力吸收器：新的解决思路

结论：注意力吸收器的威力