分类: AI

  • 数字版“疯牛病”:生成模型的自噬之路

    引言

    众所周知,不管是文本还是视觉领域,各种生成模型正在以无法阻挡的势头“肆虐”互联网。虽然大家都明白,实现真正的通用人工智能(AGI)还有很长的路要走,但这并不妨碍人们越来越频繁地利用生成模型来创作和分享内容。君不见,很多网络文章已经配上了Stable Diffusion模型生成的插图;君不见,很多新闻风格已经越来越显现出ChatGPT的影子。看似无害的这种趋势,正悄然引发了一个问题:我们是否应该对互联网上充斥的生成模型数据保持警惕?

    近期发表的论文《Self-Consuming Generative Models Go MAD》揭示了一种令人担忧的可能性,那就是生成模型正在互联网上的无节制扩张,可能会导致一场数字版的“疯牛病”疫情。本文将带您一起学习这篇论文,探讨其可能带来的影响。

    “食自己”

    一方面,人们使用生成模型的频率越来越高,将会导致互联网上由生成模型创作的内容越来越多;另一方面,生成模型也在更新迭代,其所用的数据也是从互联网爬取的。可以想像,后续的训练集中由生成模型创作的部分占比将会越来越高。换句话说,后面的每一代模型迭代时可能都没有足够多的新鲜数据,纯粹是用自己生产的数据来训练,用广东话说就是“食自己”,这将导致模型的质量或者多样性越来越差,原论文称之为“模型自噬紊乱(Model Autophagy Disorder,MAD)”。

    无独有偶,生物学上也曾出现了类似的例子。牛是草食动物,然而,一些畜牧业者为了增强其营养供应,将其他牛的残骸(包括大脑)粉碎并混入饲料中。这在当时看起来是一个机智的做法,但未曾想到最后导致了“疯牛症”的出现和大规模传播。这一事例说明,长期的“食自己”可能会导致有害因素累积在生物体内,一旦达到一定程度,甚至可能触发灾难性的疾病。

    因此,我们同样需要反思生成模型的“肆虐”是否会在互联网上引发另一场“疯牛症”——这不仅可能导致信息的同质化,使得各种内容开始变得千篇一律,缺乏原创性和多样性,还有可能引发一系列无法预见的问题。

    降多样性

    可能有读者会产生疑问:生成模型不就是对真实数据分布的模拟吗?即便连续地使用生成模型的数据进行迭代训练,应该只是在重复呈现真实的数据分布,怎么会导致多样性的丧失呢?

    这其中的原因是多方面的。首先,训练生成模型的数据往往并非直接取自真实分布,而是经过人为的加工处理,比如去噪、规范化和对齐。经过加工后,训练集就已经丧失了部分多样性。例如,我们之所以能观察到很多新闻报道或知乎回答都有一股ChatGPT的味道,并非是因为内容本身,而是因为它们的格式与ChatGPT的相似性,这就说明ChatGPT的训练数据和输出结果的风格都比较明显且局限。再比如,为了降低图像生成模型的训练难度,我们通常需要对图像进行对齐处理,如在训练人脸生成模型时,常常需要将所有人脸的眼睛对齐到同一位置,这些操作也导致了多样性的丧失。

    此外,还有一个很关键的因素是,由于生成模型本身或者训练技巧等限制,每个生成模型都无法做到完美,此时我们通常会主动地引入一些牺牲多样性来提高生成质量的技巧。比如,对于GAN、Flow等生成模型,我们会选择降低采样噪声的方差,以获得质量更高的生成结果,这就是所谓的截断技巧或退火技巧。另外,如《生成扩散模型漫谈(九):条件控制生成结果》所述,在扩散模型中我们通常引入条件信息以控制输出结果,不管是Classifier-Guidance还是Classifier-Free方案,额外条件的引入也会限制生成结果的多样性。总而言之,在生成模型不尽完美时,我们在平衡质量与多样性过程中,就主动地放弃了部分多样性。

    正态分布:简单却深刻的例子

    为了更深刻地认识到这种现象,我们接下来将探讨一些具体的例子。作为开始,我们首先考虑的是正态分布,因为它足够简单,所以求解和分析都更加清晰。但后面我们可以观察到,结果已经足够有代表性了。

    假设真实分布是多元正态分布 N(μ0, Σ0),我们用来建模的分布也是正态分布 N(μ, Σ),那么训练模型的过程,就是从训练集里边估计均值向量 μ 和协方差矩阵 Σ。接下来我们假设每一代生成模型训练时,都只用到上一代生成模型创作的数据,这是比较极端的假设,但不可否认当生成模型进一步普及时,这个假设越来越接近成立。

    在这些假设下,我们从 t-1 代生成模型 N(μt-1, Σt-1) 中采样 n 个样本 x(1)t-1, x(2)t-1,⋯, x(n)t-1,来训练第 t 代的生成模型:

    μt = 1/n ∑_{i=1}^n x(i)t-1
    Σt = 1/(n-1) ∑_{i=1}^n (x(i)t-1 - μt)(x(i)t-1 - μt)^⊤

    注意,如果加上截断技巧,那么第 t 代的生成模型就是 N(μt, λΣt),其中 λ∈(0,1)。于是可以想象,每一代的方差(多样性)都将以 λ 的比率衰减下去,最后变成零(完全丧失多样性)。如果不使用截断技巧(即 λ=1)是不是就没事了?并不是。根据定义 μt = 1/n ∑_{i=1}^n x(i)t-1,由于 x(i)t-1 都是随机采样得到的,所以 μt 也是一个随机变量,根据正态分布的叠加性,它实际上服从:

    μt ∼ N(μt-1, 1/n Σt-1) ⇒ μt ∼ N(μ0, t/n Σ0)

    可以预见,当 t 足够大时,μt 本身就会明显偏离 μ0,这对应的是质量的崩溃,而不单单是多样性的降低。

    总的来说,截断技巧的引入,会大大加速多样性的丧失速度,而即便没有截断技巧,在长期有限样本的迭代训练中,生成分布也有可能明显偏离原始的真实分布。注意,正态分布这个例子所做的假设已经比一般的生成模型要弱得多,至少它的拟合能力是保证足够的,但这依然不可避免多样性衰减或者质量崩溃,而对于真实世界的数据和能力有限的生成模型来说,理论上只会更加糟糕。

    生成模型的实验验证

    对于实际的生成模型,理论分析难以进行,所以只能通过实验来探索结果了。原论文做了非常丰富的实验,结果基本上跟正态分布的结论一致,即如果加入截断技巧的话,多样性将会迅速丧失,即使没有截断技巧,经过反复迭代后的模型依然会不可避免地出现一些偏离。

    小结

    本文探讨了当各种生成模型大规模“肆虐”互联网时可能出现的后果。在生成模型反复用自己生成的数据进行更新迭代时,可能会导致信息严重同质化、丧失多样性的问题,类似于曾经因“牛吃牛”而出现的“疯牛病”。原论文通过理论分析和实验验证,揭示了生成模型在长期迭代中可能出现的“模型自噬紊乱(Model Autophagy Disorder,MAD)”现象。

    尽管生成模型为我们带来了许多便利和创新,但我们也需要警惕其潜在的风险。未来,我们或许需要更智能的数据筛选机制和更丰富的数据源来避免这种“食自己”的现象,从而确保生成模型的多样性和质量。

    参考文献

    希望本文能为您带来一些启发,帮助您更好地理解生成模型的潜在风险。如果您有任何疑问或建议,欢迎留言交流!


    生成模型的未来,或许不只是技术的进步,更是我们对其使用方式的深思熟虑。让我们共同期待一个更加多样化和创新的数字世界!

  • 梯度流:从数学到魔法的奇幻旅程

    导言:梯度流的神奇世界

    在数学和机器学习的广袤世界中,有一个神秘的概念被称为“梯度流(Gradient Flow)”。如果你对梯度下降法有一定了解,那么你应该知道它是寻找函数最小值的强大工具。而梯度流,则是将这个寻找最小值的过程中的各个点连接起来,形成一条随时间变化的轨迹。本文将带你深入探讨这个奇妙的概念,并进一步扩展到概率空间,揭示出“Wasserstein梯度流”的神秘面纱。

    梯度下降:从山顶到山谷的滑梯

    1.1 梯度下降的基本原理

    假设我们站在一座山顶,想要找到最低谷的那一点。为了实现这个目标,我们可以使用梯度下降法。这个方法的核心在于,我们总是沿着当前点的负梯度方向前进,因为负梯度方向是局部下降最快的方向。具体的迭代公式如下:

    xt+1 = xt − α∇xf(xt)

    在这个公式中,xt表示当前的位置,α是学习率,∇xf(xt)是函数在xt点的梯度。如果函数f(x)是凸的,梯度下降通常能够找到最小值。即使函数不是凸的,梯度下降也能让我们接近一个极小值点。

    1.2 梯度流的定义

    如果我们将学习率α记作Δt,并考虑当Δt趋近于0时的极限情况,那么梯度下降的迭代公式将变为一个常微分方程(ODE):

    dxt/dt = −∇xf(xt)

    求解这个ODE得到的轨迹,就是所谓的“梯度流”。换句话说,梯度流是梯度下降在寻找最小值过程中的轨迹。

    最速方向:为什么要选择梯度下降

    2.1 局部最快下降方向

    为什么梯度下降法如此受欢迎?一个常见的说法是“梯度的负方向是局部下降最快的方向”。这个说法虽然没错,但有些不够严谨。因为“最快”涉及到定量比较,只有先确定比较的指标,才能确定“最”的结果。

    2.2 约束优化视角

    在欧氏空间中,梯度的负方向是局部下降最快的方向。然而,如果我们换一个模长的定义,或者换一个约束条件,结果可能就会不同。因此,从优化的角度来看,梯度下降法对应的优化目标是:

    xt+1 = argminx ||x - xt||^2 / (2α) + f(x)

    这意味着我们将约束条件转化为一个惩罚项,从而简化了优化过程。

    泛函与概率空间:从函数到密度函数

    3.1 泛函的引入

    普通的多元函数输入一个向量,输出一个标量。而泛函则是输入一个函数,输出一个标量。例如,定积分运算:

    I[f] = ∫ba f(x) dx

    在这里,I[f]就是一个泛函。我们将关注的泛函定义域为全体概率密度函数的集合,即研究输入一个概率密度、输出一个标量的泛函。

    3.2 Wasserstein梯度流的引入

    假设我们有一个泛函F[q],想要计算它的最小值。模仿梯度下降的思路,我们可以沿着它的负方向进行迭代。对于概率分布来说,性态比较好的距离是Wasserstein距离。我们可以将欧氏距离替换为Wasserstein距离,最终得到:

    ∂qt(x)/∂t = ∇x ⋅ (qt(x) ∇x δF[qt(x)] / δqt(x))

    这就是“Wasserstein梯度流”,其中δF[q]/δqF[q]的变分导数。

    应用与示例:从理论到实践

    4.1 f散度的应用

    例如,对于f散度,我们可以得到:

    ∂qt(x)/∂t = ∇x ⋅ (qt(x) ∇x(f(rt(x)) − rt(x) f'(rt(x))))

    其中,rt(x) = p(x) / qt(x)。这一公式可以帮助我们通过ODE从分布qt中采样。

    4.2 逆KL散度的应用

    另一个简单的例子是逆KL散度,当我们使用负对数作为函数f时,得到:

    ∂qt(x)/∂t = -∇x ⋅ (qt(x) ∇x log(p(x) / qt(x)))

    这正好是一个Fokker-Planck方程,对应的随机微分方程(SDE)为:

    dx = ∇x log(p(x)) dt + √2 dw

    这意味着,如果我们知道log(p(x)),那么就可以用上式实现从p(x)中采样。

    文章小结

    本文介绍了从梯度下降法到梯度流的概念,并进一步扩展到概率空间,引入了Wasserstein梯度流的概念。我们讨论了这些概念与连续性方程、Fokker-Planck方程和ODE/SDE采样之间的联系。通过这些讨论,我们不仅揭示了数学优化中的一些核心原理,还展示了这些原理在概率密度函数优化中的应用。希望这次奇幻旅程让你对梯度流有了更深的理解!


    如果你对优化算法和深度学习有更多兴趣,可以参考以下资源:

    • 《从动力学角度看优化算法(一):从SGD到动量加速》
    • 《从动力学角度看优化算法(三):一个更整体的视角》
    • 《从Wasserstein距离、对偶理论到WGAN》

    愿你在数学与机器学习的世界中探索得愉快,发现更多的奇妙与乐趣!

人生梦想 - 关注前沿的计算机技术 acejoy.com 🐾 步子哥の博客 🐾 背多分论坛 🐾 借一步网
Page Stats: PV: 1151 | UV: 722
Last updated: 2025-06-17 12:00:25
沪ICP备2024052574号-1