分类: 未分类

  • 让语言模型更懂你:Softmax Direct Preference Optimization 在推荐系统中的应用

    推荐系统旨在根据用户的偏好数据预测个性化的排名。随着语言模型(LM)的兴起,基于 LM 的推荐系统因其丰富的世界知识和强大的推理能力而受到广泛关注。大多数基于 LM 的推荐系统将历史交互转化为语言提示,将正向项目作为目标响应,并使用语言建模损失来微调 LM。然而,目前的优化目标未能充分利用偏好数据,也未针对个性化排名任务进行优化,这阻碍了基于 LM 的推荐系统的性能。

    受人类偏好对齐中直接偏好优化 (DPO) 的最新进展以及 softmax 损失在推荐中的成功的启发,我们提出了 Softmax-DPO (S-DPO) 来将排名信息灌输到 LM 中,帮助基于 LM 的推荐系统区分首选项目和负向项目,而不是仅仅关注正向项目。

    具体来说,我们将用户偏好数据中的多个负向项目纳入考虑,并设计了一个针对基于 LM 的推荐系统量身定制的 DPO 损失的替代版本,该版本与 softmax 采样策略相关联。从理论上讲,我们将 S-DPO 与负采样上的 softmax 损失联系起来,发现它具有挖掘难负样本的副作用,这确保了它在推荐任务中的出色能力。从经验上讲,在三个真实世界数据集上进行的大量实验表明,S-DPO 能够有效地模拟用户偏好,并进一步提高推荐性能,同时缓解 DPO 的数据似然下降问题。

    为什么语言模型在推荐系统中表现不佳?

    现有的基于 LM 的推荐系统通常使用语言建模损失来预测下一个 token,这与推荐任务中模拟用户偏好的目标存在显著差异。大多数基于 LM 的推荐系统通过利用专门的语言提示、将协作信号作为一种新的模态纳入,或扩展 LM 的词汇表来解决推荐任务。然而,这些推荐系统通常只考虑单个正向项目,并使用语言建模损失来更新 LM 参数,忽略了负向项目在推荐中的作用,阻碍了 LM 与用户偏好的对齐。

    S-DPO 如何提升推荐效果?

    S-DPO 是一种针对基于 LM 的推荐系统量身定制的 DPO 损失的替代版本,它通过整合多个负向项目来将排名信息灌输到 LM 中。S-DPO 首先利用监督微调来注入领域知识,提高 LM 遵循指令的能力,然后进入偏好对齐阶段。在偏好对齐阶段,S-DPO 将每个语言提示与正向项目和随机采样的多个负向项目配对,构建基于文本的偏好数据。

    S-DPO 的优势在于:

    • 利用多个负向项目: S-DPO 充分利用了用户偏好数据中的多个负向项目,而不是像 DPO 那样只考虑单个负向项目。这使得 S-DPO 能够更有效地学习用户偏好,并提升推荐性能。
    • 与 softmax 损失的联系: S-DPO 与负采样上的 softmax 损失密切相关,这表明 S-DPO 能够有效地进行排名优化。
    • 挖掘难负样本: S-DPO 能够挖掘难负样本,这些样本能够帮助模型更好地学习用户偏好,并提升推荐性能。

    实验结果验证 S-DPO 的有效性

    我们在三个真实世界数据集上进行了广泛的实验,结果表明 S-DPO 在 Hit Ratio@1 指标上比其他传统推荐系统和基于 LM 的推荐系统获得了显著的提升,验证了 S-DPO 的有效性。

    此外,我们还进行了消融实验,结果表明:

    • S-DPO 比仅使用单个负向项目的 DPO 性能更好,这表明多个负向项目能够提供更有效的排名梯度。
    • S-DPO 能够缓解 DPO 的数据似然下降问题,这表明 S-DPO 能够更好地学习用户偏好,并提升推荐性能。

    未来展望

    S-DPO 作为 DPO 的一种推广,为未来的基于 LM 的推荐系统提供了宝贵的见解,并有可能惠及推荐系统以外的其他研究领域。未来,我们将继续探索 S-DPO 在其他场景下的应用,并进一步研究 softmax 排名损失在 LM 中的应用。

  • 低显存也能玩转8K生成!清华Inf-DiT:超高分辨率图片生成新突破

    近年来,人工智能技术在图像生成领域取得了显著进展,特别是基于扩散模型的超高分辨率图像生成技术,能够生成令人惊叹的逼真图像。然而,现有的方法往往面临着显存占用过高的问题,限制了其在实际应用中的推广。为了解决这一难题,清华大学联合智谱AI推出了全新的超高分辨率图片上采样模型——Inf-DiT。

    单向块注意力机制:巧妙降低显存占用

    Inf-DiT的核心创新在于提出了一种 单向块注意力机制。传统的扩散模型在生成超高分辨率图像时,模型内部的隐藏状态会占据大量的显存。例如,一个 2048x2048x1280 的隐藏状态就会占据 20GB 的显存。仅仅对注意力和卷积运算进行优化并不能有效减少这部分占用。

    Inf-DiT 巧妙地将图像分成多个块,并采用单向块注意力机制,即每个块只关注自己以及左上角三个块的信息。这种左上到右下的单向依赖关系,使得模型不必同时生成整张图像,从而将隐藏状态的显存占用从 O(N^2) 降低到 O(N)。同时,模型在各层隐藏状态上进行交互,有效地聚合了不同块之间的语义信息。

    模型结构:兼顾局部和全局一致性

    Inf-DiT 结合了单向块注意力机制和之前提出的 DiT(Diffusion Transformer)架构,设计了一个全新的上采样模型。为了保持与原图的局部和全局一致性,模型采用了多种方式输入低分辨率图片:

    • 局部一致性: 低分辨率图片在简单的缩放后,会与带噪图片拼接作为 DiT 的输入,位置一一映射能提供良好的归纳偏差。但单向块注意力会导致每个块无法看到低分辨率图片的右下角部分,因此模型引入了 nearby LR cross attention 来对低分辨率图片的局部进行注意力操作。
    • 全局一致性: 为了保证与低分辨率图片的全局语义一致性(艺术风格、物体材质等),模型利用 CLIP 的图像编码器获取了低分辨率图片的嵌入,并将其与 DiT 的时间嵌入相加。同时,由于 CLIP 可以将图文对齐到同一空间中,模型还能够利用文本对生成结果进行控制,即使模型没有在任何文本上进行训练。

    模型评测:多方面验证生成能力

    Inf-DiT 在多个方面验证了其强大的生成能力:

    • 超高分辨率图片生成: 模型成功地生成了 2048 和 4096 分辨率的图片,并与其他模型进行了比较。
    • 超分辨率: 模型在 DIV2K valid 数据集上进行了测试,该数据集包含多种真实场景的摄影图片。
    • 人工评测: 研究人员让志愿者对模型生成的图片进行排序,评估其细节保真度、全局一致性和原图一致性。Inf-DiT 在三个方面都取得了最佳结果。

    迭代式上采样:从低分辨率到高分辨率

    Inf-DiT 可以接受各种分辨率的图像作为输入,因此可以用于对低分辨率图像进行迭代式上采样。研究人员测试了从 32x32 分辨率上采样到 2048x2048 分辨率的过程,结果表明模型可以在不同的分辨率下生成不同频率的细节,例如脸型、眼球、眉毛等。

    总结

    Inf-DiT 突破了传统超高分辨率图像生成模型的显存限制,在低显存环境下也能生成高质量的 8K 分辨率图片。其单向块注意力机制和兼顾局部与全局一致性的模型结构,为超高分辨率图像生成技术带来了新的突破。相信 Inf-DiT 的出现将推动超高分辨率图像生成技术在更多领域中的应用。

    参考文献


    超越界限:Inf-DiT与图像超分辨率的新篇章

    引言

    在数字时代,图像的清晰度和分辨率一直是我们追求的目标。无论是在艺术创作、广告设计还是日常摄影中,一幅超高清的图像总能让人眼前一亮。然而,传统的图像放大技术往往伴随着质量的损失。如今,随着人工智能技术的飞速发展,一种名为Inf-DiT的新型图像超分辨率模型,为我们打开了一扇全新的大门。

    Inf-DiT:图像质量的革命者

    由清华大学的研究团队开发的Inf-DiT模型,以其卓越的性能在图像生成领域引起了轰动。它不仅能够生成高达4096×4096分辨率的超高清图像,而且在内存使用上相比传统方法节省了5倍以上。这一突破性进展,无疑为图像编辑和设计领域带来了革命性的变化。

    技术解析:Unidirectional Block Attention(UniBA)

    Inf-DiT的核心是UniBA算法,它通过一种新颖的单向块注意力机制,将图像分割成小块,并以一种序列化的方式批量生成,从而显著降低了生成过程中的内存开销。这种机制不仅保持了图像块之间的依赖关系,还通过特征的逐层传播,实现了远距离块间的间接交互。

    实验验证:性能与效果的双重突破

    通过一系列的实验,Inf-DiT在机器和人类评估中均展现出了卓越的性能。无论是在细节的真实性、全局的连贯性还是与原始低分辨率输入的一致性上,Inf-DiT都获得了最高评价。此外,它在迭代上采样实验中也表现出色,能够连续多次上采样图像,同时生成不同频率的细节。

    应用前景:无限可能的探索

    Inf-DiT的应用前景广阔,无论是在复杂的设计项目、广告制作还是海报、壁纸的创作中,它都能提供强大的支持。更令人兴奋的是,Inf-DiT还具备零样本文本控制能力,这意味着即使没有经过图像-文本配对训练,它也能根据文本提示进行图像生成。

    结语

    Inf-DiT的出现,不仅仅是技术上的一次飞跃,更是对传统图像处理方法的一次颠覆。随着人工智能技术的不断进步,我们有理由相信,未来在图像质量和分辨率上,我们将能够达到前所未有的高度。

    参考文献

    1. Yang, Z. et al. “Inf-DiT: Upsampling Any-Resolution Image with Memory-Efficient Diffusion Transformer.” arXiv:2405.04312v2 [cs.CV], 8 May 2024.

人生梦想 - 关注前沿的计算机技术 acejoy.com 🐾 步子哥の博客 🐾 背多分论坛 🐾 借一步网
Page Stats: PV: 9498 | UV: 4327
Last updated: 2025-07-28 17:09:41
沪ICP备2024052574号-1