标签: AGI

  • 低显存也能玩转8K生成!清华Inf-DiT:超高分辨率图片生成新突破

    近年来,人工智能技术在图像生成领域取得了显著进展,特别是基于扩散模型的超高分辨率图像生成技术,能够生成令人惊叹的逼真图像。然而,现有的方法往往面临着显存占用过高的问题,限制了其在实际应用中的推广。为了解决这一难题,清华大学联合智谱AI推出了全新的超高分辨率图片上采样模型——Inf-DiT。

    单向块注意力机制:巧妙降低显存占用

    Inf-DiT的核心创新在于提出了一种 单向块注意力机制。传统的扩散模型在生成超高分辨率图像时,模型内部的隐藏状态会占据大量的显存。例如,一个 2048x2048x1280 的隐藏状态就会占据 20GB 的显存。仅仅对注意力和卷积运算进行优化并不能有效减少这部分占用。

    Inf-DiT 巧妙地将图像分成多个块,并采用单向块注意力机制,即每个块只关注自己以及左上角三个块的信息。这种左上到右下的单向依赖关系,使得模型不必同时生成整张图像,从而将隐藏状态的显存占用从 O(N^2) 降低到 O(N)。同时,模型在各层隐藏状态上进行交互,有效地聚合了不同块之间的语义信息。

    模型结构:兼顾局部和全局一致性

    Inf-DiT 结合了单向块注意力机制和之前提出的 DiT(Diffusion Transformer)架构,设计了一个全新的上采样模型。为了保持与原图的局部和全局一致性,模型采用了多种方式输入低分辨率图片:

    • 局部一致性: 低分辨率图片在简单的缩放后,会与带噪图片拼接作为 DiT 的输入,位置一一映射能提供良好的归纳偏差。但单向块注意力会导致每个块无法看到低分辨率图片的右下角部分,因此模型引入了 nearby LR cross attention 来对低分辨率图片的局部进行注意力操作。
    • 全局一致性: 为了保证与低分辨率图片的全局语义一致性(艺术风格、物体材质等),模型利用 CLIP 的图像编码器获取了低分辨率图片的嵌入,并将其与 DiT 的时间嵌入相加。同时,由于 CLIP 可以将图文对齐到同一空间中,模型还能够利用文本对生成结果进行控制,即使模型没有在任何文本上进行训练。

    模型评测:多方面验证生成能力

    Inf-DiT 在多个方面验证了其强大的生成能力:

    • 超高分辨率图片生成: 模型成功地生成了 2048 和 4096 分辨率的图片,并与其他模型进行了比较。
    • 超分辨率: 模型在 DIV2K valid 数据集上进行了测试,该数据集包含多种真实场景的摄影图片。
    • 人工评测: 研究人员让志愿者对模型生成的图片进行排序,评估其细节保真度、全局一致性和原图一致性。Inf-DiT 在三个方面都取得了最佳结果。

    迭代式上采样:从低分辨率到高分辨率

    Inf-DiT 可以接受各种分辨率的图像作为输入,因此可以用于对低分辨率图像进行迭代式上采样。研究人员测试了从 32x32 分辨率上采样到 2048x2048 分辨率的过程,结果表明模型可以在不同的分辨率下生成不同频率的细节,例如脸型、眼球、眉毛等。

    总结

    Inf-DiT 突破了传统超高分辨率图像生成模型的显存限制,在低显存环境下也能生成高质量的 8K 分辨率图片。其单向块注意力机制和兼顾局部与全局一致性的模型结构,为超高分辨率图像生成技术带来了新的突破。相信 Inf-DiT 的出现将推动超高分辨率图像生成技术在更多领域中的应用。

    参考文献


    超越界限:Inf-DiT与图像超分辨率的新篇章

    引言

    在数字时代,图像的清晰度和分辨率一直是我们追求的目标。无论是在艺术创作、广告设计还是日常摄影中,一幅超高清的图像总能让人眼前一亮。然而,传统的图像放大技术往往伴随着质量的损失。如今,随着人工智能技术的飞速发展,一种名为Inf-DiT的新型图像超分辨率模型,为我们打开了一扇全新的大门。

    Inf-DiT:图像质量的革命者

    由清华大学的研究团队开发的Inf-DiT模型,以其卓越的性能在图像生成领域引起了轰动。它不仅能够生成高达4096×4096分辨率的超高清图像,而且在内存使用上相比传统方法节省了5倍以上。这一突破性进展,无疑为图像编辑和设计领域带来了革命性的变化。

    技术解析:Unidirectional Block Attention(UniBA)

    Inf-DiT的核心是UniBA算法,它通过一种新颖的单向块注意力机制,将图像分割成小块,并以一种序列化的方式批量生成,从而显著降低了生成过程中的内存开销。这种机制不仅保持了图像块之间的依赖关系,还通过特征的逐层传播,实现了远距离块间的间接交互。

    实验验证:性能与效果的双重突破

    通过一系列的实验,Inf-DiT在机器和人类评估中均展现出了卓越的性能。无论是在细节的真实性、全局的连贯性还是与原始低分辨率输入的一致性上,Inf-DiT都获得了最高评价。此外,它在迭代上采样实验中也表现出色,能够连续多次上采样图像,同时生成不同频率的细节。

    应用前景:无限可能的探索

    Inf-DiT的应用前景广阔,无论是在复杂的设计项目、广告制作还是海报、壁纸的创作中,它都能提供强大的支持。更令人兴奋的是,Inf-DiT还具备零样本文本控制能力,这意味着即使没有经过图像-文本配对训练,它也能根据文本提示进行图像生成。

    结语

    Inf-DiT的出现,不仅仅是技术上的一次飞跃,更是对传统图像处理方法的一次颠覆。随着人工智能技术的不断进步,我们有理由相信,未来在图像质量和分辨率上,我们将能够达到前所未有的高度。

    参考文献

    1. Yang, Z. et al. “Inf-DiT: Upsampling Any-Resolution Image with Memory-Efficient Diffusion Transformer.” arXiv:2405.04312v2 [cs.CV], 8 May 2024.

  • 大型语言模型必须学会“知其不知”

    大型语言模型(LLM)正在改变世界,从生成引人入胜的文本到回答复杂问题,它们的能力令人惊叹。然而,在将 LLM 应用于高风险领域时,我们必须了解何时可以信任它们的预测。LLM 能否准确地表达其输出的正确性,是决定它们是否能真正造福社会并可靠地用于决策的关键问题。

    目前,关于 LLM 是否能准确地表达不确定性,还没有达成共识。一些研究认为,通过精心设计的提示,高性能 LLM 可以直接产生校准良好的不确定性估计 [25, 51];而另一些研究则认为,LLM 在预测时仍然过于自信 [59, 60]。由于语言模型的自由生成文本存在各种语言差异,这些差异无法在训练过程中被完全考虑,因此 LLM 的不确定性估计任务变得更加复杂。LLM 从业者面临着选择哪种估计方法的挑战。

    黑盒与白盒:两种截然不同的方法

    LLM 的不确定性估计方法可以分为黑盒和白盒两种。黑盒方法不需要训练,可以用于像 GPT-4 [1] 或 Gemini [48] 这样的封闭源模型。而白盒方法需要在校准数据集上训练参数。随着强大的开源模型,如 LLaMA [53] 或 Mistral [24] 的出现,更有效的白盒方法变得更加容易获得。

    细致研究:揭示 LLM 不确定性校准的真相

    本文深入研究了 LLM 的不确定性校准,并得出了有助于解决关于良好校准所需干预措施的争论的结论。我们重点关注以下问题:

    • 是否可以在没有干预的情况下获得关于正确性(而非词语)的良好不确定性?
    • 如何最好地利用标记的正确性示例?
    • 不确定性在分布变化中能有多好地泛化?
    • 如何利用 LLM 不确定性来帮助人类决策?

    打破神话:提示本身不足以实现良好校准

    我们首先发现,为了获得更可靠的不确定性估计,需要进行微调,这比使用基线方法更快、更可靠,而且只需要相对较少的额外参数。微调后得到的不确定性还可以泛化到新的问题类型和任务,而不仅仅局限于微调数据集中的内容。

    微调的必要性:利用标记示例提高 LLM 的“知其不知”能力

    与之前的工作不同,我们首先展示了当前的零样本黑盒方法在开放式场景中效率低下或成本过高(第 4 节)。然后,我们展示了如何对语言模型进行微调以实现校准,探索了最有效的参数化方式(例如线性探测器与 LoRA)以及获得良好泛化所需的训练数据量(第 5 节)。为了测试泛化能力,我们评估了模型在与校准数据格式类似的问题以及测试对显著分布变化鲁棒性的问题上的不确定性估计。

    深层机制:揭秘 LLM 不确定性估计的内在原理

    我们进一步研究了使 LLM 能够估计自身不确定性的机制,发现许多模型可以作为通用的不确定性估计器,不仅适用于它们自身的不确定性,也适用于其他模型的不确定性(第 6 节)。

    人机协作:利用 LLM 不确定性提升决策效率

    除了离线评估,如果语言模型要对社会产生广泛的影响,那么它将通过帮助人类决策来实现。我们进行了一项用户研究,展示了 LLM 不确定性如何影响人机协作(第 7 节)。

    结论:微调是提高 LLM 不确定性估计的关键

    我们的研究表明,监督学习方法,即学习预测模型的正确性,可以显著优于基线方法,只需 1000 个标记示例即可。通过 LoRA 更新模型特征并使用语言提示是取得良好性能的关键。

    未来展望:探索更强大的 LLM 不确定性估计方法

    未来还有许多令人兴奋的研究方向。目前,微调依赖于两个独立的模型,一个用于问答,另一个用于不确定性估计。理想情况下,我们希望有一个单一的模型,能够在不切换模型权重的情况下生成问题和不确定性。我们预计,一种不确定性感知的预训练或对齐阶段可能变得至关重要,但在保持基础语言建模能力的同时实现这种过程将带来一个具有挑战性的在线学习问题,其中正确性标签在训练过程中会不断演变。

    除了提高语言模型的安全性和实用性,高质量的不确定性还可以用于主动学习程序,例如用于样本高效微调 [39],其中数据点根据预测效用和模型的不确定性进行选择,以平衡探索与利用之间的权衡。不确定性估计还可以用于提高语言模型的真实性,通过提高模型对其有信心的生成(判断可能正确的生成)的可能性,例如使用对齐程序(例如 RLHF、DPO)和奖励函数,鼓励自信的生成 [50]。

    最终目标:让 LLM 成为人类决策的可靠伙伴

    我们还展示了如何利用不确定性信息来影响人类决策。最终,LLM 将通过决策来影响社会,为了做出合理的决策,我们需要不确定性信息,特别是为了防止罕见但代价高昂的错误。

    参考文献

    [1] OpenAI. GPT-4. [Online]. Available: https://openai.com/product/gpt-4

    [2] Google AI. Gemini. [Online]. Available: https://ai.google/products/gemini/

    [3] LLaMA. [Online]. Available: https://ai.facebook.com/blog/large-language-models-can-be-more-efficient-and-powerful/

    [4] Mistral. [Online]. Available: https://mistral.ai/

    [5] Kadavath, S., et al. “Language Models are Better at Estimating Their Own Uncertainty Than We Thought.” arXiv preprint arXiv:2302.02661 (2023).

    [6] Tian, Y., et al. “Prompting for Calibration in Language Models.” arXiv preprint arXiv:2303.13250 (2023).

    [7] Xiong, W., et al. “Language Models Can’t Tell You What They Don’t Know: On the Limitations of Zero-Shot Uncertainty Estimation.” arXiv preprint arXiv:2305.15687 (2023).

    [8] Lin, Z., et al. “Calibrating Language Models for Uncertainty Estimation.” arXiv preprint arXiv:2107.08632 (2021).

    [9] Zhang, S., et al. “Learning to Estimate Uncertainty in Language Models.” arXiv preprint arXiv:2109.08850 (2021).

    [10] Burns, C., et al. “Truthfulness in Language Models: A Bayesian Perspective.” arXiv preprint arXiv:2304.09300 (2023).

    [11] Azaria, A., and M. Mitchell. “TruthfulQA: Measuring How Well Language Models Can Identify Truthful Claims.” arXiv preprint arXiv:2203.14028 (2022).

    [12] Kuhn, J., et al. “Semantic Clustering for Improved Calibration of Large Language Models.” arXiv preprint arXiv:2304.01763 (2023).

    [13] MMLU. [Online]. Available: https://github.com/hendrycks/test-sets

    [14] SelfAware. [Online]. Available: https://github.com/google-research/self-aware-language-models

    [15] sBERT. [Online]. Available: https://www.sbert.net/

    [16] OpenAI sentence embeddings. [Online]. Available: https://platform.openai.com/docs/guides/embeddings

    [17] Guo, C., et al. “On Calibration of Modern Neural Networks.” arXiv preprint arXiv:1706.04599 (2017).

    [18] Brown, T., et al. “Language Models are Few-Shot Learners.” arXiv preprint arXiv:2005.14165 (2020).

    [19] Radford, A., et al. “Language Models are Unsupervised Multitask Learners.” OpenAI (2019).

    [20] Hu, J., et al. “LoRA: Low-Rank Adaptation of Large Language Models.” arXiv preprint arXiv:2106.09685 (2021).


    Q: 这篇论文试图解决什么问题?

    A: 这篇论文探讨了在高风险应用中使用大型语言模型(Large Language Models, LLMs)时,如何确定何时可以信赖它们的预测结果。具体来说,论文的主要问题包括:

    1. 不确定性的准确表示:LLMs是否能准确表示其输出正确性的不确定性,并且是否存在共识关于如何用语言模型来表示这种不确定性。
    2. 零样本学习(Zero-Shot Learning)的局限性:一些研究表明,通过提示(prompting)可以提高LLMs估计不确定性的能力,而其他研究则表明LLMs在预测中过于自信。论文探讨了零样本学习方法在开放性问题生成中的局限性。
    3. 校准方法的有效性:论文研究了通过在正确和错误答案的小数据集上进行微调(fine-tuning),能否创建具有良好泛化能力和小计算开销的不确定性估计。
    4. 不确定性估计的泛化能力:研究了微调后的不确定性估计在新问题类型和任务中的泛化能力,以及在面对分布变化时的鲁棒性。
    5. 人类与AI协作中的不确定性应用:论文通过用户研究探讨了不确定性估计如何影响人类使用LLMs的方式,尤其是在人机协作的环境中。

    总的来说,论文的核心目标是提高LLMs在不确定性估计方面的可靠性,以便它们在需要高度信任的场合中更加安全和有用。

    Q: 有哪些相关研究?

    A: 论文中提到了与大型语言模型(LLMs)不确定性估计相关的多项研究,以下是一些主要的相关研究:

    1. Kadavath et al. [25]: 提出通过仔细的提示(prompting)可以在文本中产生随着模型能力提高而更加校准的不确定性估计。
    2. Tian et al. [51]: 展示了如何通过提示方法从语言模型中提取不确定性,并且这些估计随着模型能力的增强而变得更加校准。
    3. Burns et al. [9] 和 Azaria and Mitchell [4]: 发现预训练模型具有预测真实性的隐藏表示,并使用线性探针来分类模型的正确性。
    4. Xiong et al. [59]: 展示了零样本不确定性估计在区分正确和错误答案方面的能力有限,即使使用最佳可用模型(例如 GPT-4)。
    5. Lin et al. [33] 和 Zhang et al. [62]: 将不确定性估计视为在分级数据集上的文本完成任务,并提出了一种微调方法。
    6. Kuhn et al. [30]: 试图通过聚类语义等价答案来减轻答案概率分布不可靠的问题,但这些方法受到计算开销大的限制。

    这些研究为理解LLMs在不确定性估计方面的能力提供了基础,并指出了现有方法的局限性,为本文提出的微调方法提供了对比和背景。论文通过这些相关工作,展示了在开放性问题生成中,现有方法的不足,并提出了改进的微调方法来提高不确定性估计的准确性和泛化能力。

    Q: 论文如何解决这个问题?

    A: 论文通过以下几个步骤来解决大型语言模型(LLMs)在不确定性估计方面的问题:

    1. 微调方法:论文首先指出,仅通过提示(prompting)方法来实现良好的校准是不够的。作者提出了一种微调方法,通过在包含正确和错误答案的小数据集上进行微调,以创建具有良好泛化能力的不确定性估计。
    2. LoRA技术:使用低秩适配器(LoRA)技术来微调模型。LoRA通过在模型的特定层中引入低秩矩阵来调整模型的参数,从而减少了计算开销并保持了模型的原有性能。
    3. 分级数据集:构建一个分级数据集,其中包含模型生成的答案及其正确性标签。这个数据集用于训练一个额外的分类器,以预测模型答案的正确概率。
    4. 正则化策略:为了确保微调后的模型仍然保持与原始模型相似的预测,论文采用了正则化技术,通过惩罚微调模型与原始模型在目标序列上的分布差异。
    5. 评估和测试:在新的开放式问题回答变体上评估微调方法的有效性,并通过预期校准误差(ECE)和接收者操作特征曲线下面积(AUROC)等指标来衡量模型的校准性能。
    6. 分布变化的鲁棒性:研究了微调后的不确定性估计在面对分布变化时的泛化能力,包括不同主题领域、问题格式以及模型生成的答案。
    7. 人类-AI协作:通过用户研究,探讨了校准后的不确定性估计如何影响人类在使用LLMs时的决策过程,以及如何提高人机协作的效率。
    8. 模型间不确定性估计:论文还探讨了使用一个模型来估计另一个模型的不确定性,这为在没有访问模型内部结构的情况下估计不确定性提供了可能性。

    通过这些方法,论文不仅提高了LLMs在不确定性估计方面的性能,还为未来的研究和实际应用提供了有价值的见解和工具。

    Q: 论文做了哪些实验?

    A: 论文中进行了一系列实验来评估和验证所提出方法的有效性。以下是主要的实验内容:

    1. 微调方法的比较:比较了不同的微调方法,包括仅使用探针(Probe)、使用低秩适配器(LoRA)以及结合低秩适配器和提示(LoRA + Prompt)的方法。
    2. 校准性能评估:使用预期校准误差(ECE)和接收者操作特征曲线下面积(AUROC)作为指标,评估不同方法在多选题(MC)和开放式(OE)MMLU数据集上的校准性能。
    3. 数据集大小对性能的影响:研究了不同大小的微调数据集(从200到20000个样本)对模型性能的影响,以了解所需的最小标记数据量。
    4. 跨领域和格式的泛化能力:测试了微调后的模型在不同主题领域(如STEM、人文学科、社会科学等)以及不同问题格式(如从多选题到开放式问题)的泛化能力。
    5. 模型间不确定性估计:评估了一个模型在估计另一个模型的不确定性方面的表现,以及使用通用句子嵌入(如sBERT和OpenAI句子嵌入)与冻结的语言模型表示的比较。
    6. 用户研究:进行了用户研究,以了解校准后的不确定性估计如何影响用户在使用LLMs进行决策时的行为,特别是对于不同性能水平的用户。
    7. 代码任务的泛化性测试:使用LiveCodeBench中的编码竞赛任务来评估微调不确定性估计方法在完全分布外任务上的表现。
    8. 信心与目标长度的关系:分析了微调模型估计的信心与目标序列长度之间的关系,以确保信心估计不受序列长度的影响。
    9. 模型信心的实用性:通过用户研究,评估了用户如何根据模型报告的信心分数调整他们对模型预测的依赖程度。

    这些实验全面地评估了所提出方法在不同方面的表现,包括校准性能、泛化能力、实用性以及模型间不确定性估计的能力。通过这些实验,论文展示了微调方法在提高LLMs不确定性估计准确性和可靠性方面的潜力。

    Q: 有什么可以进一步探索的点?

    A: 论文在讨论部分提出了一些未来工作的方向,以下是可以进一步探索的关键点:

    1. 单一模型的不确定性和答案生成:目前微调依赖于两个独立的模型,一个用于问题回答,另一个用于不确定性估计。理想情况下,研究者希望开发一个单一的模型,能够在不切换模型权重的情况下同时生成问题的答案和相关的不确定性信息。
    2. 不确定性感知的预训练或对齐阶段:为了在保持基础语言建模能力的同时实现这一点,可能需要一个不确定性感知的预训练或对齐阶段,这将引入一个具有挑战性的在线学习问题,其中正确性标签在训练期间会发展变化。
    3. 主动学习应用:高质量的不确定性可以用来指导主动学习过程,例如在样本高效的微调中,根据预测的效用和模型的不确定性选择数据点,以平衡探索和利用之间的权衡。
    4. 提高语言模型的事实性:通过增加模型对其有高信心(判断可能正确)的生成的偏好,使用对齐过程(例如RLHF、DPO)和奖励函数来鼓励有信心的生成。
    5. 人类决策中不确定性信息的使用:LLMs将通过决策对社会产生影响,为了做出合理的决策,需要不确定性信息——特别是为了防范罕见但代价高昂的错误。
    6. 跨学科合作:论文提到了人工智能、行为科学和人机交互之间的跨学科合作,以更深入地探索如何有效地向用户传达信心,并帮助他们适当地利用这些信心分数进行决策。
    7. 评估方法的改进:研究如何改进评估模型输出正确性的方法,特别是在开放性问题回答中,以更准确地反映模型性能。
    8. 模型信心的可视化表示:探索不同的方式来可视化和传达模型信心,以便用户能够更好地理解和利用这些信息。
    9. 模型鲁棒性的提升:研究如何提高模型在面对对抗性攻击或数据分布偏移时的鲁棒性。
    10. 伦理和社会影响:深入研究LLMs的伦理和社会影响,确保技术进步不会无意中导致负面后果。

    这些探索点不仅涉及技术层面的改进,还包括对LLMs在实际应用中如何更好地服务于人类需求和社会价值的深入思考。

    Q: 总结一下论文的主要内容

    A: 这篇论文的主要内容可以总结如下:

    1. 问题识别:论文首先指出在高风险应用中使用大型语言模型(LLMs)时,准确判断模型预测的可信度是一个关键问题。目前对于LLMs是否能够准确表示不确定性,以及如何表示这种不确定性,学界并没有达成共识。
    2. 方法论:论文提出,仅通过提示(prompting)来实现LLMs的不确定性校准是不够的,而通过在正确和错误答案的小数据集上进行微调可以创建具有良好泛化能力的不确定性估计。
    3. 技术实现:论文采用了低秩适配器(LoRA)技术来微调模型,以改善不确定性估计。同时,论文还探讨了不同的参数化方法,包括仅使用探针(Probe)、LoRA以及结合LoRA和提示的方法。
    4. 实验验证:通过在MMLU数据集上的实验,论文验证了微调方法在多选题(MC)和开放式(OE)问题上的有效性,并通过预期校准误差(ECE)和接收者操作特征曲线下面积(AUROC)等指标来衡量模型的校准性能。
    5. 泛化能力:论文研究了微调后的模型在不同主题领域和问题格式上的泛化能力,包括跨领域和跨格式的评估。
    6. 人类-AI协作:通过用户研究,论文探讨了校准后的不确定性估计如何影响人类在使用LLMs时的决策过程,尤其是在人机协作环境中。
    7. 模型间不确定性估计:论文还探讨了使用一个模型来估计另一个模型的不确定性,这为在没有访问模型内部结构的情况下估计不确定性提供了可能性。
    8. 未来方向:论文提出了未来研究的方向,包括开发单一模型来同时生成答案和不确定性、探索不确定性感知的预训练或对齐阶段、以及提高语言模型的事实性和鲁棒性。
    9. 社会影响:论文讨论了LLMs在社会中的影响,特别是在决策制定中的作用,强调了提供校准良好的不确定性估计对于合理决策的重要性。
    10. 结论:论文得出结论,通过适当的微调,可以显著提高LLMs在不确定性估计方面的性能,这对于提高模型的可解释性、可信度和在实际应用中的安全性至关重要。
人生梦想 - 关注前沿的计算机技术 acejoy.com 🐾 步子哥の博客 🐾 背多分论坛 🐾 借一步网
Page Stats: PV: 2123 | UV: 1155
Last updated: 2025-06-21 20:04:34
沪ICP备2024052574号-1