近年来，人工智能技术在图像生成领域取得了显著进展，特别是基于扩散模型的超高分辨率图像生成技术，能够生成令人惊叹的逼真图像。然而，现有的方法往往面临着显存占用过高的问题，限制了其在实际应用中的推广。为了解决这一难题，清华大学联合智谱AI推出了全新的超高分辨率图片上采样模型——Inf-DiT。

单向块注意力机制：巧妙降低显存占用

Inf-DiT的核心创新在于提出了一种 单向块注意力机制。传统的扩散模型在生成超高分辨率图像时，模型内部的隐藏状态会占据大量的显存。例如，一个 2048x2048x1280 的隐藏状态就会占据 20GB 的显存。仅仅对注意力和卷积运算进行优化并不能有效减少这部分占用。

Inf-DiT 巧妙地将图像分成多个块，并采用单向块注意力机制，即每个块只关注自己以及左上角三个块的信息。这种左上到右下的单向依赖关系，使得模型不必同时生成整张图像，从而将隐藏状态的显存占用从 O(N^2) 降低到 O(N. 。同时，模型在各层隐藏状态上进行交互，有效地聚合了不同块之间的语义信息。✅

模型结构：兼顾局部和全局一致性

Inf-DiT 结合了单向块注意力机制和之前提出的 DiT（Diffusion Transformer）架构，设计了一个全新的上采样模型。为了保持与原图的局部和全局一致性，模型采用了多种方式输入低分辨率图片：

局部一致性: 低分辨率图片在简单的缩放后，会与带噪图片拼接作为 DiT 的输入，位置一一映射能提供良好的归纳偏差。但单向块注意力会导致每个块无法看到低分辨率图片的右下角部分，因此模型引入了 nearby LR cross attention 来对低分辨率图片的局部进行注意力操作。
全局一致性: 为了保证与低分辨率图片的全局语义一致性（艺术风格、物体材质等），模型利用 CLIP 的图像编码器获取了低分辨率图片的嵌入，并将其与 DiT 的时间嵌入相加。同时，由于 CLIP 可以将图文对齐到同一空间中，模型还能够利用文本对生成结果进行控制，即使模型没有在任何文本上进行训练。

模型评测：多方面验证生成能力

Inf-DiT 在多个方面验证了其强大的生成能力：

超高分辨率图片生成: 模型成功地生成了 2048 和 4096 分辨率的图片，并与其他模型进行了比较。
超分辨率: 模型在 DIV2K valid 数据集上进行了测试，该数据集包含多种真实场景的摄影图片。
人工评测: 研究人员让志愿者对模型生成的图片进行排序，评估其细节保真度、全局一致性和原图一致性。Inf-DiT 在三个方面都取得了最佳结果。

迭代式上采样：从低分辨率到高分辨率

Inf-DiT 可以接受各种分辨率的图像作为输入，因此可以用于对低分辨率图像进行迭代式上采样。研究人员测试了从 32x32 分辨率上采样到 2048x2048 分辨率的过程，结果表明模型可以在不同的分辨率下生成不同频率的细节，例如脸型、眼球、眉毛等。

总结

Inf-DiT 突破了传统超高分辨率图像生成模型的显存限制，在低显存环境下也能生成高质量的 8K 分辨率图片。其单向块注意力机制和兼顾局部与全局一致性的模型结构，为超高分辨率图像生成技术带来了新的突破。相信 Inf-DiT 的出现将推动超高分辨率图像生成技术在更多领域中的应用。

参考文献

超越界限：Inf-DiT与图像超分辨率的新篇章

引言

在数字时代，图像的清晰度和分辨率一直是我们追求的目标。无论是在艺术创作、广告设计还是日常摄影中，一幅超高清的图像总能让人眼前一亮。然而，传统的图像放大技术往往伴随着质量的损失。如今，随着人工智能技术的飞速发展，一种名为Inf-DiT的新型图像超分辨率模型，为我们打开了一扇全新的大门。

Inf-DiT：图像质量的革命者

由清华大学的研究团队开发的Inf-DiT模型，以其卓越的性能在图像生成领域引起了轰动。它不仅能够生成高达4096×4096分辨率的超高清图像，而且在内存使用上相比传统方法节省了5倍以上。这一突破性进展，无疑为图像编辑和设计领域带来了革命性的变化。

技术
解析：Unidirectional Block Attention（UniBA）

Inf-DiT的核心是UniBA算法，它通过一种新颖的单向块注意力机制，将图像分割成小块，并以一种序列化的方式批量生成，从而显著降低了生成过程中的内存开销。这种机制不仅保持了图像块之间的依赖关系，还通过特征的逐层传播，实现了远距离块间的间接交互。

实验验证：性能与效果的双重突破

通过一系列的实验，Inf-DiT在机器和人类评估中均展现出了卓越的性能。无论是在细节的真实性、全局的连贯性还是与原始低分辨率输入的一致性上，Inf-DiT都获得了最高评价。此外，它在迭代上采样实验中也表现出色，能够连续多次上采样图像，同时生成不同频率的细节。

应用前景：无限可能的探索

Inf-DiT的应用前景广阔，无论是在复杂的设计项目、广告制作还是海报、壁纸的创作中，它都能提供强大的支持。更令人兴奋的是，Inf-DiT还具备零样本文本控制能力，这意味着即使没有经过图像-文本配对训练，它也能根据文本提示进行图像生成。

结语

Inf-DiT的出现，不仅仅是技术上的一次飞跃，更是对传统图像处理方法的一次颠覆。随着人工智能技术的不断进步，我们有理由相信，未来在图像质量和分辨率上，我们将能够达到前所未有的高度。

参考文献

Yang, Z. et al. “Inf-DiT: Upsampling Any-Resolution Image with Memory-Efficient Diffusion Transformer.” arXiv:2405.04312v2 [cs.CV], 8 May 2024.✅

评论

发表回复取消回复

更多文章

🌌《算法觉醒：当AI开始自我进化时》

《AoT算法核心：原子化思维让推理更高效》

张量积注意力（TPA）：让注意力机制飞得更高、跑得更快的秘密武器

《从键盘到星辰：WPGraphQL如何解锁数字宇宙的奥秘》

春門不開：大學校園何以拒春風於千里之外？

书海拾遗：从尘封书页到心灵星空的旅程

《关税风暴下的红绿江湖：股市的惊魂七日》

低显存也能玩转8K生成！清华Inf-DiT：超高分辨率图片生成新突破

单向块注意力机制：巧妙降低显存占用

模型结构：兼顾局部和全局一致性

模型评测：多方面验证生成能力

迭代式上采样：从低分辨率到高分辨率

总结

参考文献

超越界限：Inf-DiT与图像超分辨率的新篇章

引言

Inf-DiT：图像质量的革命者

技术显示内容解析：Unidirectional Block Attention（UniBA）

实验验证：性能与效果的双重突破

应用前景：无限可能的探索

结语

参考文献

评论

发表回复 取消回复

更多文章

技术
解析：Unidirectional Block Attention（UniBA）

发表回复取消回复