低显存也能玩转8K生成!清华Inf-DiT:超高分辨率图片生成新突破

近年来,人工智能技术在图像生成领域取得了显著进展,特别是基于扩散模型的超高分辨率图像生成技术,能够生成令人惊叹的逼真图像。然而,现有的方法往往面临着显存占用过高的问题,限制了其在实际应用中的推广。为了解决这一难题,清华大学联合智谱AI推出了全新的超高分辨率图片上采样模型——Inf-DiT。

单向块注意力机制:巧妙降低显存占用

Inf-DiT的核心创新在于提出了一种 单向块注意力机制。传统的扩散模型在生成超高分辨率图像时,模型内部的隐藏状态会占据大量的显存。例如,一个 2048x2048x1280 的隐藏状态就会占据 20GB 的显存。仅仅对注意力和卷积运算进行优化并不能有效减少这部分占用。

Inf-DiT 巧妙地将图像分成多个块,并采用单向块注意力机制,即每个块只关注自己以及左上角三个块的信息。这种左上到右下的单向依赖关系,使得模型不必同时生成整张图像,从而将隐藏状态的显存占用从 O(N^2) 降低到 O(N)。同时,模型在各层隐藏状态上进行交互,有效地聚合了不同块之间的语义信息。

模型结构:兼顾局部和全局一致性

Inf-DiT 结合了单向块注意力机制和之前提出的 DiT(Diffusion Transformer)架构,设计了一个全新的上采样模型。为了保持与原图的局部和全局一致性,模型采用了多种方式输入低分辨率图片:

  • 局部一致性: 低分辨率图片在简单的缩放后,会与带噪图片拼接作为 DiT 的输入,位置一一映射能提供良好的归纳偏差。但单向块注意力会导致每个块无法看到低分辨率图片的右下角部分,因此模型引入了 nearby LR cross attention 来对低分辨率图片的局部进行注意力操作。
  • 全局一致性: 为了保证与低分辨率图片的全局语义一致性(艺术风格、物体材质等),模型利用 CLIP 的图像编码器获取了低分辨率图片的嵌入,并将其与 DiT 的时间嵌入相加。同时,由于 CLIP 可以将图文对齐到同一空间中,模型还能够利用文本对生成结果进行控制,即使模型没有在任何文本上进行训练。

模型评测:多方面验证生成能力

Inf-DiT 在多个方面验证了其强大的生成能力:

  • 超高分辨率图片生成: 模型成功地生成了 2048 和 4096 分辨率的图片,并与其他模型进行了比较。
  • 超分辨率: 模型在 DIV2K valid 数据集上进行了测试,该数据集包含多种真实场景的摄影图片。
  • 人工评测: 研究人员让志愿者对模型生成的图片进行排序,评估其细节保真度、全局一致性和原图一致性。Inf-DiT 在三个方面都取得了最佳结果。

迭代式上采样:从低分辨率到高分辨率

Inf-DiT 可以接受各种分辨率的图像作为输入,因此可以用于对低分辨率图像进行迭代式上采样。研究人员测试了从 32x32 分辨率上采样到 2048x2048 分辨率的过程,结果表明模型可以在不同的分辨率下生成不同频率的细节,例如脸型、眼球、眉毛等。

总结

Inf-DiT 突破了传统超高分辨率图像生成模型的显存限制,在低显存环境下也能生成高质量的 8K 分辨率图片。其单向块注意力机制和兼顾局部与全局一致性的模型结构,为超高分辨率图像生成技术带来了新的突破。相信 Inf-DiT 的出现将推动超高分辨率图像生成技术在更多领域中的应用。

参考文献


超越界限:Inf-DiT与图像超分辨率的新篇章

引言

在数字时代,图像的清晰度和分辨率一直是我们追求的目标。无论是在艺术创作、广告设计还是日常摄影中,一幅超高清的图像总能让人眼前一亮。然而,传统的图像放大技术往往伴随着质量的损失。如今,随着人工智能技术的飞速发展,一种名为Inf-DiT的新型图像超分辨率模型,为我们打开了一扇全新的大门。

Inf-DiT:图像质量的革命者

由清华大学的研究团队开发的Inf-DiT模型,以其卓越的性能在图像生成领域引起了轰动。它不仅能够生成高达4096×4096分辨率的超高清图像,而且在内存使用上相比传统方法节省了5倍以上。这一突破性进展,无疑为图像编辑和设计领域带来了革命性的变化。

技术
解析:Unidirectional Block Attention(UniBA)

Inf-DiT的核心是UniBA算法,它通过一种新颖的单向块注意力机制,将图像分割成小块,并以一种序列化的方式批量生成,从而显著降低了生成过程中的内存开销。这种机制不仅保持了图像块之间的依赖关系,还通过特征的逐层传播,实现了远距离块间的间接交互。

实验验证:性能与效果的双重突破

通过一系列的实验,Inf-DiT在机器和人类评估中均展现出了卓越的性能。无论是在细节的真实性、全局的连贯性还是与原始低分辨率输入的一致性上,Inf-DiT都获得了最高评价。此外,它在迭代上采样实验中也表现出色,能够连续多次上采样图像,同时生成不同频率的细节。

应用前景:无限可能的探索

Inf-DiT的应用前景广阔,无论是在复杂的设计项目、广告制作还是海报、壁纸的创作中,它都能提供强大的支持。更令人兴奋的是,Inf-DiT还具备零样本文本控制能力,这意味着即使没有经过图像-文本配对训练,它也能根据文本提示进行图像生成。

结语

Inf-DiT的出现,不仅仅是技术上的一次飞跃,更是对传统图像处理方法的一次颠覆。随着人工智能技术的不断进步,我们有理由相信,未来在图像质量和分辨率上,我们将能够达到前所未有的高度。

参考文献

  1. Yang, Z. et al. "Inf-DiT: Upsampling Any-Resolution Image with Memory-Efficient Diffusion Transformer." arXiv:2405.04312v2 [cs.CV], 8 May 2024.
0 0 投票数
Article Rating
订阅评论
提醒
0 评论
最旧
最新 最多投票
内联反馈
查看所有评论
0
希望看到您的想法,请您发表评论x