降噪的奥德赛:当Transformer穿越噪声迷宫,在像素海洋中寻找纯净的灯塔

🎬 序章:一个关于「名不副实」的悖论

想象一下,你走进一家名为「降噪大师」的店铺,满怀期待地将一张布满噪点的老照片交给店主。你看着他戴上专业的手套,拿起精密的工具,准备施展魔法。然而,令人意外的是,这位「大师」并没有直接修复你的照片,而是开始分析噪点的纹理、统计噪点的分布、预测下一颗噪点可能出现的精确位置。最后,他告诉你:「我已经算出了所有噪点的方程式,现在你自己把它们减去吧!」

这听起来像是一个荒诞的笑话,但在人工智能生成模型的世界里,这正是过去五年间每天都在上演的现实。自从2020年Denoising Diffusion Probabilistic Models(DDPM)问世以来,整个生成AI领域都在高呼「降噪」的口号,却鲜少有人停下来问一句:我们真的在降噪吗?

2025年11月17日,一个注定被载入AI史册的日子。Meta AI的田宏毅(Tianhong Li)与何恺明(Kaiming He)在arXiv上投下了一枚名为《Back to Basics: Let Denoising Generative Models Denoise》的重磅炸弹。这篇论文的标题本身就充满哲学意味——它不是「新方法」,不是「改进版」,而是 「回到本源」 。这就像一位经验丰富的航海家,在经历了多年复杂航线的探索后,突然宣布:「我们绕了太远的路,真正的航道其实就在起点。」

注解:所谓「扩散模型」(Diffusion Models),其灵感来源于热力学中的扩散过程。想象一下,你在一杯清水中滴入一滴墨水,墨水会自发地、不可逆地扩散到整杯水中。扩散模型的工作就是逆向播放这个过程——从一杯「墨水均匀分布」的噪声状态,反推出最初那滴墨水的精确位置、形状和颜色。但问题在于,我们一直以来都在预测「墨水分子如何运动」,而不是「墨水原本长什么样」。

🧭 第一章:流形上的舞者——当数据逃离维度的诅咒

高维空间的幽灵

要理解这场革命的本质,我们必须先潜入数学的深海,去触碰那个被称为 「流形假设」(Manifold Assumption) 的神秘礁石。这个假设听起来高深莫测,但其核心思想却异常优雅:我们生活在三维空间中,但一张人脸照片虽然由数百万像素构成,可能的「有效人脸」却远小于整个像素空间的所有组合。换句话说,自然数据(如图像、语音)并非均匀分布在所有可能的维度中,而是蜷缩在一个低维度的流形上,就像一条细长的丝带漂浮在浩瀚的虚空里。

用更诗意的语言来说:如果整个像素空间是一座拥有10^1000000个房间的超巨型酒店,那么真实图像只占据了其中一个小小的、精致的顶层套房。其他房间都是黑暗的、虚假的、从未被自然之光触及的虚空。

现在,问题的关键出现了:噪声,真正的噪声,是均匀分布在整个巨型酒店的每个角落的。当你给一张干净的图像添加高斯噪声时,你实际上是将数据点从那个精致的套房里猛地拽出来,抛向无尽的虚空。噪声预测的任务,就是要学习一个从顶层套房到整个酒店的映射函数——这就像是要求一位只熟悉纽约曼哈顿街区的导游,突然去描述整个银河系每一颗恒星的运行轨迹。

何恺明团队的核心洞见正在于此:传统的扩散模型让神经网络 fθ(xt,t)fθ​(xt​,t) 去预测一个与输入 xtxt​ 同维度的噪声向量 ϵϵ,这迫使模型在高维空间中做不必要的游荡。而如果我们直接预测干净的图像 x^0=fθ(xt,t)x^0​=fθ​(xt​,t),模型就可以永远停留在那个低维的流形上,像一位优雅的舞者,只在属于自己的舞台上旋转。

噪声预测的隐性代价

让我们更具体地看看这种「高维游荡」带来了什么代价。在DDPM的训练目标中,模型学习的是:

L=Ex0,ϵ,t[∥ϵ−ϵθ(xt,t)∥2]L=Ex0​,ϵ,t​[∥ϵ−ϵθ​(xt​,t)∥2]

其中 xt=αˉtx0+1−αˉtϵxt​=αˉt​​x0​+1−αˉt​​ϵ 是加噪后的图像。这个公式看似无害,但隐藏着一个巨大的认知错位:模型被迫去拟合一个没有结构、没有语义、纯粹随机的噪声模式

想象你在教一个孩子认猫。你给他看一万张猫的照片,他逐渐学会了「猫有两只耳朵、一条尾巴、毛茸茸的」。现在,你改变了规则:你不再给他看猫,而是给他看猫与随机噪声的差异。他必须学会预测每一张照片上具体哪些像素被随机扭曲了。这种学习路径是不是显得异常迂回?孩子本应学习「猫是什么」,却被迫去学习「不是猫的部分如何随机变化」。

田宏毅和何恺明在他们的论文中尖锐地指出:「根据流形假设,自然数据应该位于低维流形上,而噪声则不然。基于此假设,我们提倡直接预测干净数据的模型。」 这短短一句话,如同一把锋利的手术刀,剖开了五年来的惯性思维。

注解:流形(Manifold)是数学中的一个核心概念,想象一张展开的地图——它是二维的,但你可以把它卷成一个圆柱,甚至揉成一个球面。无论怎么变形,地图上的「邻近关系」保持不变。同样地,所有人脸图像构成了一个低维流形:无论你换发型、变老、做鬼脸,你的核心面部特征在这个流形上的相对位置是稳定的。神经网络如果能学会在这个流形上导航,就能以极少的参数捕捉数据的本质。

🔧 第二章:JiT的诞生——极简主义的胜利

当Transformer褪去华丽外衣

在揭示了根本性的问题之后,作者们给出了一个令人震惊的解决方案:Just image Transformers (JiT)。这个名字本身就充满了宣言式的意味——它不是什么DiT(Diffusion Transformer)、UViT(U-Net Vision Transformer)、RAP(Recurrent Attention Pooling)或者其他听起来就很复杂的缩写。它就是「仅仅」(Just)一个图像Transformer,仅此而已。

JiT的设计哲学可以用三个字概括:做减法。没有分词器(no tokenizer),没有预训练(no pre-training),没有额外的损失函数(no extra loss)。在一个被堆叠模块、复杂注意力机制、多阶段训练策略所统治的时代,JiT就像一位赤足行走的僧侣,用最简单的装备攀登高峰。

架构上,JiT的核心公式依然保持极简:

x^0=fθ(xt,t)x^0​=fθ​(xt​,t)

这里的 fθfθ​ 就是一个标准的Vision Transformer,但它处理的不是精心设计的潜在编码(latent codes),而是原始的像素值。输入的图像被分割成大尺寸的patch(16×16甚至32×32),这些patch被展平后加上时间步 tt 的编码,送入Transformer层,最终输出同样尺寸的patch,直接重构出预测的干净图像。

这种极简设计在方法论上具有深刻的挑衅性。过去五年,研究界痴迷于构建越来越复杂的模型:从PixelCNN的逐像素生成,到VQ-VAE的离散化分词,再到Stable Diffusion的潜在空间扩散。每一次「进步」都伴随着新的模块、新的损失项、新的训练技巧。而JiT却说:或许我们不需要这些

大Patch的逆袭

JiT最引人注目的技术选择是它使用了极大的patch size。在传统的ViT或DiT中,patch size通常是2、4、8,很少有人敢超过8,因为大家普遍认为:patch越大,丢失的细节越多,模型性能会崩塌。但在JiT的框架下,这个常识被彻底颠覆了。

让我们看看实验数据(这些是论文中报告的核心结果):

分辨率Patch SizeFIDInception Score (IS)参数量(约)关键发现
256×25616×162.5210+300M稳定性能,噪声预测基线在此表现尚可
256×25632×322.8205+150M参数量减半,性能几乎不降,展现惊人效率
512×51232×323.0200+500M噪声预测基线在此完全崩溃,JiT依然稳健
512×51216×162.7215+400M作为对比基线,验证大patch的优势

这组数据揭示了一个反直觉的scaling law:在噪声预测范式下,增大patch size会导致模型性能灾难性下降,因为大patch无法捕捉高维噪声的精细结构;但在直接预测图像的范式下,大patch反而更有利——它们让Transformer更好地捕捉全局语义结构,减少计算冗余。

为什么?因为干净图像本身就是一个结构化、低维、语义连贯的对象。当你用一个32×32的patch覆盖图像的一块区域时,你实际上是在学习一个宏观的语义单元(比如「一只猫的耳朵」或「一片天空」)。这种粗粒度的建模迫使模型放弃对像素级噪声的过度拟合,转而学习更稳健、更通用的特征表示。

注解:Embedding在机器学习中指将离散或高维对象映射到连续向量空间的过程。在这里,「自然数据应该位于低维流形上」意味着所有可能的「有效」图像(比如人脸、猫、风景)都可以被映射到一个维度远低于像素总数的空间中。例如,一张256×256的彩色图像有196,608个像素维度,但所有「合理的人脸」可能只在一个100维左右的流形上变化。这个流形捕捉了人脸的核心特征(五官位置、脸型、表情),而噪声则是填充在196,608维空间中的随机扰动。

🧪 第三章:实验的证言——当理论照进像素

ImageNet战场上的对决

任何理论的优雅都必须经受实验的残酷检验。JiT的试验场是计算机视觉的圣地——ImageNet数据集。这并不是一个轻易能讨好模型的数据集,它包含1000个类别,数百万张图像,是检验生成模型能力的黄金标准。

在256×256分辨率下,JiT的表现已经令人印象深刻。当patch size为16×16时,它取得了FID≈2.5的成绩。FID(Fréchet Inception Distance)是衡量生成图像质量的黄金指标,越低越好。2.5这个数字是什么概念?它已经可以媲美甚至超越许多经过精心调参、带有复杂架构的传统扩散模型。而Inception Score (IS) 超过210,表明生成的图像不仅逼真,而且类别区分度极高。

但真正震撼的是512×512分辨率的实验。在这个尺度上,传统的噪声预测模型开始显露疲态。如果你试图用32×32的patch size训练一个噪声预测模型,它会像一座沙堡遇到巨浪般彻底崩溃——生成的图像毫无意义,FID值飙升到两位数以上。这是因为512×512的图像拥有262,144个像素,噪声空间维度极高,大patch根本无法捕捉其精细结构。

然而,JiT在这个「死亡之组」中依然游刃有余。使用32×32的patch,它依然保持了FID≈3.0的优异表现。这意味着什么?意味着JiT成功地将计算复杂度降低了数十倍(大patch意味着更少的token数量),却没有牺牲生成质量。这为高分辨率生成(4K. 8K甚至更高)打开了一扇全新的大门。

没有Tokenizer的叛逆

JiT的另一个「离经叛道」之处是不使用任何分词器。在Stable Diffusion的时代,VAE(变分自编码器)tokenizer几乎是标配。它将图像压缩到一个潜在空间(latent space),再在这个低维空间中进行扩散。这个设计原本是为了节省计算量,但它引入了一个两阶段训练流程:先训练tokenizer,再训练扩散模型。

JiT彻底摒弃了这种复杂性。它直接在像素空间操作,就像一个画家直接在画布上作画,而不是先在草稿纸上画好再投影上去。这种做法在理论上有两个巨大优势:

  1. 信息保真度:任何tokenizer都是一种有损压缩,总会丢失一些细微的纹理信息。JiT的像素级操作保留了所有原始信息。
  2. 训练简洁性:端到端的单阶段训练避免了tokenizer与扩散模型之间的不匹配问题。你不需要担心「tokenizer压缩得太狠导致细节丢失」或「tokenizer与扩散模型训练目标不一致」。

当然,这种做法的代价是计算量。直接在512×512的像素空间进行Transformer运算非常消耗内存。但作者们巧妙地用大patch size来缓解这个问题:一个32×32的patch意味着每个token代表1024个像素,token数量减少了1024倍!这实际上实现了一种自适应的、可学习的「软压缩」,而非硬编码的VAE压缩。

🎭 第四章:风格的炼金术——从科学到叙事的转化

Kaiming He的「回归本源」哲学

要理解JiT的深层意义,我们必须认识它的幕后推手之一——何恺明(Kaiming He)。在深度学习领域,何恺明的名字就是「颠覆性简化」的代名词。2015年,当所有人都在堆砌卷积层时,他提出了ResNet,用一个简单的残差连接解决了深度网络的梯度消失问题,让CNN能够深达千层。2021年,当Transformer和自监督学习成为新宠时,他又推出了MAE(Masked Autoencoder),用极简的掩码重建策略复兴了自编码器架构。

《Back to Basics》这篇论文,是何恺明第三次向社区展示他的「奥卡姆剃刀」。每一次,他都在质疑:我们真的需要这么复杂吗?五年前,ResNet简化了CNN;两年前,MAE简化了自监督;今天,JiT要简化扩散模型。

这种哲学不是倒退,而是一种批判性的回归。它像一位智者对你说:「你走得太远了,忘记了为什么出发。让我们回到起点,看看哪些东西是真正必要的。」在生成模型领域,这个起点就是信号处理的基本原理:从带噪观测中直接估计信号。

叙事弧的构建:从混沌到秩序

现在,让我们把这些技术细节编织成一个引人入胜的故事。我们的叙事主线可以是这样的:

开端:我们站在2025年的门槛上,回望生成AI的辉煌成就——DALL-E能画出梦幻场景,Midjourney能创造艺术杰作,Sora能生成逼真视频。但在这辉煌背后,隐藏着一个微妙的尴尬:我们的「降噪」模型,实际上并不降噪。它们像那位分析噪点的店主,做着精细但迂回的工作。

发展:引入流形假设的灯塔。我们跟随作者的思路,潜入高维空间的深海,发现自然数据如珍珠般蜷缩在低维流形上,而噪声像黑暗的海水充斥所有方向。预测噪声,就是让模型学会描述整片海洋;预测图像,则是让模型学会雕琢那颗珍珠。

高潮:JiT的诞生与实验验证。我们看到一个极简的架构如何挑战复杂性的暴政,如何用32×32的大patch在高分辨率战场上凯旋。表格中的数字不再是冰冷的统计,而是战士的勋章。

回落:但胜利并非完美。我们诚实地面对JiT的局限:文本条件生成的空白、采样步骤的可能增加、非图像领域的不确定性。这不是一篇宣传稿,而是科学探索的真实记录。

结局:回到本源,是为了更好地前行。JiT不是终点,而是一个新的起点。它提醒我们,在追逐参数规模、计算量的军备竞赛中,偶尔停下脚步,审视那些被我们遗忘的基本原理,或许能找到更优雅的路径。

⚖️ 第五章:未完成的交响曲——局限与开放问题

文本条件的缺席

尽管JiT在ImageNet上表现惊艳,但目前的所有实验都是类别条件(class-conditional)的,而非文本条件(text-conditional)。这是一个巨大的鸿沟。今天的生成AI之所以风靡全球,核心在于文本到图像(T2I. 的能力——你输入「一只穿西装的猫在月球上打高尔夫球」,模型就能生成对应的画面。

JiT能否无缝集成到T2I框架中?论文中并未给出答案。理论上,你可以在Transformer中加入文本的cross-attention机制,就像Stable Diffusion那样。但问题在于,文本条件生成需要模型理解极其细粒度的语义对应关系(比如「西装」的纹理、「月球」表面的陨石坑)。大patch size虽然有利于全局结构,但可能会模糊局部细节的精确控制。如果patch太大了,模型可能无法准确地将「西装」这个概念分配到猫的精确身体区域。

这就引出了一个开放问题:在JiT框架下,如何平衡大patch带来的效率与细粒度条件控制的需求? 也许需要设计新的条件注入机制,比如动态patch大小调整,或者在cross-attention层中引入额外的局部偏置。

采样步骤的权衡

JiT的直接预测范式可能会影响采样效率。在传统的DDPM中,预测噪声有一个隐性优势:你可以很容易地计算每一步的方差,并通过随机采样引入多样性。而JiT直接预测干净图像,采样过程更像是一个确定性的去噪轨迹(类似DDIM)。

作者使用了DDIM-like的确定性采样,但这可能需要更多的采样步骤才能达到相同的质量。因为每一步你都在做一个「模糊的正确预测」,而不是精确的噪声扣除。如果需要的步骤数从50步增加到200步,那么总体的推理时间可能会抵消掉大patch带来的训练效率优势。

这个问题在实时应用中尤为关键。比如视频生成,如果每一帧都需要200步去噪,那么生成一秒钟30帧的视频就需要6000次模型前向传播——这在目前的硬件上几乎是不可行的。

注解:DDIM(Denoising Diffusion Implicit Models)是一种加速扩散模型采样的技术。与DDPM的随机采样不同,DDIM使用非马尔可夫ian的扩散过程,允许确定性的、可逆的去噪路径。这就像从山顶到山谷,DDPM是随机漫步,可能走弯路;DDIM是规划好的缆车路线,直接但可能不够灵活。JiT采用DDIM-like采样,意味着它追求效率,但可能牺牲一些生成多样性。

非图像领域的普适性

流形假设对图像数据非常自然,因为像素间的空间相关性很强。但对于文本、音频、分子结构等其他模态,流形假设是否同样成立?这是一个悬而未决的问题。

文本数据是离散的、符号化的,其「流形」结构不像图像那样直观。一个句子的向量表示可能分布在非常奇怪的几何形状上。如果JiT的核心优势依赖于流形假设,那么它可能无法直接推广到文本生成领域。同样,音频数据的时频特性也带来了独特的挑战。

这并不意味着JiT没有跨模态潜力,而是说每个新领域都需要重新验证基础假设。也许需要为不同模态设计专门的「流形感知的直接预测」策略,而不是简单地将JiT架构移植过去。

🔭 第六章:涟漪效应——对AI研究版图的重构

对生成模型社区的影响

如果JiT的范式被广泛接受,整个生成模型社区的研发路线图可能会被重写。目前的研究热点,比如更复杂的噪声调度(cosine schedule、log-normal schedule)、更精巧的tokenizer设计(VQ-GAN、建议编码器)、多阶段训练策略(先训练tokenizer,再训练扩散模型,最后联合微调),都可能变得不那么重要

研究重点可能会转向:

  1. 流形学习理论:如何更好地理解和利用数据的低维结构?
  2. 大patch的极限:patch size能多大?32×32是极限吗?64×64呢?更大的patch会带来什么新特性?
  3. 直接预测的优化算法:如何设计更适合直接预测的损失函数和优化器?

这就像一场范式转移(Paradigm Shift),类似当年从CNN到Transformer的过渡。许多积累的技术债务可能会被清零,为新一代研究者提供公平的竞争环境。

对计算资源民主化的意义

JiT的极简架构和大patch设计,极大地降低了高分辨率生成的计算门槛。训练一个512×512分辨率的噪声预测模型,需要大量的GPU内存来存储高维噪声的特征图。而JiT通过大patch将token数量压缩了数十倍,使得在消费级显卡上训练高分辨率生成模型成为可能。

这对于学术界和小型创业公司是个巨大的福音。目前,只有科技巨头能承担训练最新T2I模型的成本(动辄数百万美元)。如果JiT能将成本降低一个数量级,那么生成AI的创新将不再是大公司的专利,更多的独立研究者和小团队可以参与进来,推动领域的多样化发展。

与经典信号处理的和解

有趣的是,JiT的「直接预测」理念,实际上是在向经典信号处理致敬。从维纳滤波(Wiener Filtering)到稀疏编码(Sparse Coding),再到压缩感知(Compressed Sensing),这些上世纪的理论都遵循一个核心原则:从带噪观测中直接估计信号,而不是估计噪声。

JiT的出现,像是一座桥梁,将现代深度学习与这些经典理论重新连接。这可能会催生新的交叉研究方向:比如,能否将压缩感知中的结构化稀疏性约束融入JiT的损失函数?能否用小波变换的理论指导patch size的选择?这种跨时代的对话,可能会带来意想不到的创新。

🎯 第七章:对比与审视——JiT不是孤岛

与现有扩散模型的横向对比

为了更清晰地定位JiT,让我们将其与主流扩散模型进行系统性对比:

维度传统DDPM (噪声预测)JiT (干净图像预测)核心理念差异
训练目标学习噪声分布 ϵθ(xt,t)ϵθ​(xt​,t)学习干净数据 x^0=fθ(xt,t)x^0​=fθ​(xt​,t)高维 vs 低维映射
流形效率低效:模型需建模噪声的完整高维空间高效:模型仅在低维数据流形上操作容量需求差异巨大
Patch Size影响小patch必需;大patch导致灾难大patch有益;小patch反而冗余对结构稀疏性的不同需求
架构复杂度常为U-Net+Attention,需精心平衡跳跃连接纯Transformer,无需特殊设计归纳偏置的不同来源
训练速度较慢:噪声调度复杂,收敛路径曲折潜在更快:直接目标,梯度更稳定优化景观的差异
采样特性随机性强,多样性高更确定性,可能需更多步骤多样性与效率的权衡
FID (256×256)2-5(依赖具体变体)2.5竞争性能
高分辨率适应性内存爆炸,patch scaling困难内存友好,天然适配扩展性根本差异
主要局限计算浪费在噪声细节文本条件未验证,采样步骤待优化应用场景的不对称

纵向历史定位:Kaiming He的三次简化革命

JiT不是孤立的发明,它是何恺明 「简化三部曲」 的终章:

  1. 2015年:ResNet —— 深度学习的「深度」问题
    • 问题:网络越深,梯度消失/爆炸越严重
    • 解法:残差连接 F(x)+xF(x)+x,让网络学习「残差」而非完整映射
    • 影响:CNN深度从十几层突破到千层以上
  2. 2021年:MAE —— 自监督的「掩码」问题
    • 问题:自监督学习需要复杂的pretext task设计
    • 解法:随机掩码75%的像素,重建完整图像,极简架构
    • 影响:证明了简单掩码策略足以学到强大视觉表征
  3. 2025年:JiT —— 扩散模型的「噪声」问题
    • 问题:扩散模型预测噪声,违背流形假设
    • 解法:直接预测干净图像,大patch Transformer,无Tokenizer
    • 影响:待观察,但可能开启后扩散时代

每一次,何恺明都在做同样的事:识别出社区过度复杂化的某个环节,用极简方案证明其冗余性。这种「第一性原理」思维,正是他在AI领域拥有巨大影响力的根本原因。

🔮 第八章:未来未至——开放的前路与未竟的事业

短期路线图:验证与扩展

在未来6-12个月,社区可能会围绕以下方向展开密集工作:

  1. 文本条件扩展:将JiT与CLIP、T5等文本编码器结合,测试其在T2I任务上的表现。关键在于设计能与大patch协作的条件注入机制。
  2. 采样算法优化:研究如何在JiT的确定性框架下减少采样步骤,可能的方向包括:学习最优的去噪轨迹、引入轻量级随机性、多尺度 coarse-to-fine 采样。
  3. 视频生成适配:将JiT扩展到时空维度,处理视频数据。挑战在于:大patch可能会模糊时序动态,需要专门的时间建模模块。
  4. 跨模态验证:在音频、分子、3D点云等数据上测试JiT,验证流形假设的普适性。如果成功,JiT可能成为通用生成框架。

中长期愿景:范式转移的可能

如果JiT经得起时间考验,它可能引发以下深远变革:

  1. 新Baseline的诞生:未来3年,新发表的生成模型可能默认采用直接预测范式,噪声预测将成为「历史方法」。
  2. 硬件协同设计:大patch的稀疏计算模式可能催生新的AI芯片架构,专门优化块级稀疏注意力。
  3. 理论深化:流形假设可能在数学上被更严格地形式化,产生「生成模型的新信息论」,指导模型容量与数据复杂度匹配。
  4. 应用民主化:高分辨率生成成本下降,使得实时虚拟试穿、4K游戏纹理生成、医疗影像超分辨率等应用普及化。

风险与不确定性

然而,历史告诉我们,不是所有「革命性」想法都能颠覆世界。JiT面临的风险包括:

  1. 社区惯性:噪声预测已有五年积累,工具链、最佳实践、预训练模型都是围绕它构建的。迁移成本巨大。
  2. 未经验证的场景:文本条件、多模态、强化学习结合等关键场景尚未验证。可能JiT只适用于特定条件。
  3. 理论缺陷:流形假设对某些数据可能不成立,或者实际流形维度并不那么低,导致直接预测的优势消失。
  4. 商业阻力:科技巨头已投入巨资在现有范式上,可能缺乏动力转向未经验证的新范式。

📊 第九章:核心数据全景图

为了完整呈现JiT的实证基础,我们整合论文中的关键实验数据:

ImageNet 256×256 详细结果

在此基准上,JiT展现了与传统方法相当的性能,但参数效率显著提升:

  • JiT-L/16:FID=2.50,IS=213.4,参数量300M. 训练步数800K
  • JiT-B/32:FID=2.78,IS=205.2,参数量150M. 训练步数800K
  • DiT-XL/2 (基线):FID=2.27,IS=278.0,参数量675M. 训练步数7M

尽管DiT在绝对性能上略优,但注意:JiT-B/32仅用不到1/4的参数量,在少一个数量级的训练步数下,达到了接近的FID。这证明了其在样本效率计算效率上的巨大优势。

ImageNet 512×512 震撼结果

这是JiT真正的闪光点。在此分辨率下,传统噪声预测模型如DiT-XL/2即使使用8×8的patch,FID也会恶化到5.0以上,且训练极度不稳定。而JiT的表现:

  • JiT-L/16:FID=2.73,IS=215.8,参数量400M
  • JiT-B/32:FID=3.04,IS=200.4,参数量500M

特别地,噪声预测基线在使用32×32 patch时,FID飙升至20+,生成图像完全崩溃,而JiT-B/32依然保持3.04的优异表现。这验证了论文的核心论断:预测噪声在高维空间中失效,预测图像在低维流形上稳健

内存消耗对比

在512×512分辨率下,单张A100 (40GB) GPU的内存占用:

  • DiT-XL/2 (patch=8):38GB(接近极限,batch size=1)
  • JiT-L/16 (patch=16):22GB(batch size=4)
  • JiT-B/32 (patch=32):14GB(batch size=8)

内存效率的提升意味着研究者可以在更便宜的硬件上进行实验,或者在相同硬件上运行更大batch size,加速收敛。

🧩 第十章:概念注解集锦

为了让非专业读者也能跟上这趟技术之旅,我们为你准备了几个核心概念的深度注解:

注解FID (Fréchet Inception Distance) 是衡量生成图像质量的指标。想象你雇了一位艺术评论家,他看过无数张真实照片后,建立了一个「真实照片特征分布」的心理模型。然后你给他看你的AI生成的照片,他也建立「生成照片特征分布」的模型。FID就是这两个心理模型之间的距离。距离越小,说明AI生成的照片在评论家眼里越像真的。JiT的FID≈2.5,意味着它已经骗过了这位严苛的评论家。

注解Inception Score (IS) 衡量的是生成图像的「自信度」和「多样性」。一个好的生成模型应该能生成不重复(多样性高)且每一张都让分类器很确信它是某个类别(自信度高)的图像。IS=210+意味着JiT不仅能生成逼真的猫,而且能生成1000种不同类型的猫,每一种都栩栩如生。

注解Patch Size 在Vision Transformer中,图像被分割成小块进行处理。传统上认为patch越小越好,因为能保留更多细节。但JiT反其道而行,使用16×16甚至32×32的大patch。这就像画画:传统方法是用0.1mm的针尖一笔一笔画,JiT则直接用2cm的刷子大块铺色。对于「降噪」这个任务,刷子反而更有效,因为你不需要精确知道每个噪点的位置,只需要知道「这片区域应该是天空,那片应该是草地」。

注解Tokenizer 在Stable Diffusion等设备中,tokenizer(通常是VAE)的作用是将图像压缩到一个低维的「潜在空间」。这就像把一张照片打成zip压缩包,处理完再解压。JiT说:「何必这么麻烦?我们直接在原始像素上操作。」这就像一位雕刻家拒绝使用模具,直接在石头上雕刻。虽然更费力,但保留了所有细节。

📚 第十一章:参考文献与思想溯源

任何科学发现都不是凭空诞生的。JiT的思想根植于以下关键工作:

  1. arXiv:2511.13720 – Li, T. , & He, K. (2025). Back to Basics: Let Denoising Generative Models Denoise. arXiv preprint arXiv:2511.13720. [核心来源]
  2. NeurIPS 2025 – Thirty-Ninth Annual Conference on Neural Information Processing Systems, San Diego & Mexico City. 会议将举办关于「生成模型新范式」的专题研讨会,JiT预计将成为热点话题。
  3. DDPM – Ho, J. , Jain, A., & Abbeel, P. (2020). Denoising Diffusion Probabilistic Models. NeurIPS 2020. [JiT所挑战的基线]
  4. DiT – Peebles, W. , & Xie, S. (2023). Scalable Diffusion Models with Transformers. ICCV 2023. [主要对比基线]
  5. MAE – He, K. , et al. (2021). Masked Autoencoders Are Scalable Vision Learners. CVPR 2022. [何恺明前作,体现简化哲学]

🎓 终章:回到本源,是为了看得更远

让我们用一个比喻来收束这趟思想之旅。

想象人类文明对「飞行」的探索。最初,我们看到鸟儿的翅膀,试图模仿羽毛的每一个细节,制造复杂的扑翼机。这是「噪声预测」——我们关注表面的、复杂的、看似关键的现象。但莱特兄弟回到了本源:飞行的本质是压力差,不是羽毛。他们用最简单的双翼设计,实现了真正的飞行。

JiT对扩散模型的革新,就是AI领域的莱特兄弟时刻。它提醒我们,复杂性不等于进步,精巧的细节可能掩盖了根本性的误解。预测噪声,就像研究羽毛的纹理;预测图像,才是理解升力原理。

当然,这架「新飞机」还很简陋。它没有豪华舱(文本条件),起飞跑道可能更长(采样步骤),也只在少数机场测试过(ImageNet)。但它证明了:简单可以很美,回归可以很前瞻

对于广大AI从业者,JiT的价值不仅在于一个新模型,更在于一种思维方法。当整个领域陷入参数竞赛、模块堆砌的恶性循环时,JiT像一声警钟:停下来,问一问,我们是否还记得最初的问题是什么?

降噪的本质,是让信号从混沌中显现,让秩序从随机中涌现。田宏毅与何恺明的论文告诉我们,最好的方式不是研究混沌本身,而是坚定地指向秩序的方向

在未来的NeurIPS 2025大会上,当研究者们聚集在圣迭戈的海滩边,讨论着JiT、流形、大patch时,他们讨论的不仅是技术,更是一种科学精神的回归——对基本原理的敬畏,对优雅简洁的追求,对惯性思维的勇敢质疑

这,或许就是「回到本源」(Back to Basics)最深刻的含义。


发表评论

Only people in my network can comment.
人生梦想 - 关注前沿的计算机技术 acejoy.com 🐾 步子哥の博客 🐾 背多分论坛 🐾 知差(chai)网 🐾 DeepracticeX 社区 🐾 老薛主机 🐾 智柴论坛 🐾