降噪的奥德赛：当Transformer穿越噪声迷宫，在像素海洋中寻找纯净的灯塔

🎬 序章：一个关于「名不副实」的悖论

想象一下，你走进一家名为「降噪大师」的店铺，满怀期待地将一张布满噪点的老照片交给店主。你看着他戴上专业的手套，拿起精密的工具，准备施展魔法。然而，令人意外的是，这位「大师」并没有直接修复你的照片，而是开始分析噪点的纹理、统计噪点的分布、预测下一颗噪点可能出现的精确位置。最后，他告诉你：「我已经算出了所有噪点的方程式，现在你自己把它们减去吧！」

这听起来像是一个荒诞的笑话，但在人工智能生成模型的世界里，这正是过去五年间每天都在上演的现实。自从2020年Denoising Diffusion Probabilistic Models（DDPM）问世以来，整个生成AI领域都在高呼「降噪」的口号，却鲜少有人停下来问一句：我们真的在降噪吗？

2025年11月17日，一个注定被载入AI史册的日子。Meta AI的田宏毅（Tianhong Li）与何恺明（Kaiming He）在arXiv上投下了一枚名为《Back to Basics: Let Denoising Generative Models Denoise》的重磅炸弹。这篇论文的标题本身就充满哲学意味——它不是「新方法」，不是「改进版」，而是 「回到本源」 。这就像一位经验丰富的航海家，在经历了多年复杂航线的探索后，突然宣布：「我们绕了太远的路，真正的航道其实就在起点。」

注解：所谓「扩散模型」（Diffusion Models），其灵感来源于热力学中的扩散过程。想象一下，你在一杯清水中滴入一滴墨水，墨水会自发地、不可逆地扩散到整杯水中。扩散模型的工作就是逆向播放这个过程——从一杯「墨水均匀分布」的噪声状态，反推出最初那滴墨水的精确位置、形状和颜色。但问题在于，我们一直以来都在预测「墨水分子如何运动」，而不是「墨水原本长什么样」。

🧭 第一章：流形上的舞者——当数据逃离维度的诅咒

高维空间的幽灵

要理解这场革命的本质，我们必须先潜入数学的深海，去触碰那个被称为 「流形假设」（Manifold Assumption） 的神秘礁石。这个假设听起来高深莫测，但其核心思想却异常优雅：我们生活在三维空间中，但一张人脸照片虽然由数百万像素构成，可能的「有效人脸」却远小于整个像素空间的所有组合。换句话说，自然数据（如图像、语音）并非均匀分布在所有可能的维度中，而是蜷缩在一个低维度的流形上，就像一条细长的丝带漂浮在浩瀚的虚空里。

用更诗意的语言来说：如果整个像素空间是一座拥有10^1000000个房间的超巨型酒店，那么真实图像只占据了其中一个小小的、精致的顶层套房。其他房间都是黑暗的、虚假的、从未被自然之光触及的虚空。

现在，问题的关键出现了：噪声，真正的噪声，是均匀分布在整个巨型酒店的每个角落的。当你给一张干净的图像添加高斯噪声时，你实际上是将数据点从那个精致的套房里猛地拽出来，抛向无尽的虚空。噪声预测的任务，就是要学习一个从顶层套房到整个酒店的映射函数——这就像是要求一位只熟悉纽约曼哈顿街区的导游，突然去描述整个银河系每一颗恒星的运行轨迹。

何恺明团队的核心洞见正在于此：传统的扩散模型让神经网络 fθ(xt,t)fθ(xt,t) 去预测一个与输入 xtxt 同维度的噪声向量 ϵϵ，这迫使模型在高维空间中做不必要的游荡。而如果我们直接预测干净的图像 x^0=fθ(xt,t)x^0=fθ(xt,t)，模型就可以永远停留在那个低维的流形上，像一位优雅的舞者，只在属于自己的舞台上旋转。

噪声预测的隐性代价

让我们更具体地看看这种「高维游荡」带来了什么代价。在DDPM的训练目标中，模型学习的是：

L=Ex0,ϵ,t[∥ϵ−ϵθ(xt,t)∥2]L=Ex0,ϵ,t[∥ϵ−ϵθ(xt,t)∥2]

其中 xt=αˉtx0+1−αˉtϵxt=αˉtx0+1−αˉtϵ 是加噪后的图像。这个公式看似无害，但隐藏着一个巨大的认知错位：模型被迫去拟合一个没有结构、没有语义、纯粹随机的噪声模式。

想象你在教一个孩子认猫。你给他看一万张猫的照片，他逐渐学会了「猫有两只耳朵、一条尾巴、毛茸茸的」。现在，你改变了规则：你不再给他看猫，而是给他看猫与随机噪声的差异。他必须学会预测每一张照片上具体哪些像素被随机扭曲了。这种学习路径是不是显得异常迂回？孩子本应学习「猫是什么」，却被迫去学习「不是猫的部分如何随机变化」。

田宏毅和何恺明在他们的论文中尖锐地指出：「根据流形假设，自然数据应该位于低维流形上，而噪声则不然。基于此假设，我们提倡直接预测干净数据的模型。」这短短一句话，如同一把锋利的手术刀，剖开了五年来的惯性思维。

注解：流形（Manifold）是数学中的一个核心概念，想象一张展开的地图——它是二维的，但你可以把它卷成一个圆柱，甚至揉成一个球面。无论怎么变形，地图上的「邻近关系」保持不变。同样地，所有人脸图像构成了一个低维流形：无论你换发型、变老、做鬼脸，你的核心面部特征在这个流形上的相对位置是稳定的。神经网络如果能学会在这个流形上导航，就能以极少的参数捕捉数据的本质。

🔧 第二章：JiT的诞生——极简主义的胜利

当Transformer褪去华丽外衣

在揭示了根本性的问题之后，作者们给出了一个令人震惊的解决方案：Just image Transformers (JiT)。这个名字本身就充满了宣言式的意味——它不是什么DiT（Diffusion Transformer）、UViT（U-Net Vision Transformer）、RAP（Recurrent Attention Pooling）或者其他听起来就很复杂的缩写。它就是「仅仅」（Just）一个图像Transformer，仅此而已。

JiT的设计哲学可以用三个字概括：做减法。没有分词器（no tokenizer），没有预训练（no pre-training），没有额外的损失函数（no extra loss）。在一个被堆叠模块、复杂注意力机制、多阶段训练策略所统治的时代，JiT就像一位赤足行走的僧侣，用最简单的装备攀登高峰。

架构上，JiT的核心公式依然保持极简：

x^0=fθ(xt,t)x^0=fθ(xt,t)

这里的 fθfθ 就是一个标准的Vision Transformer，但它处理的不是精心设计的潜在编码（latent codes），而是原始的像素值。输入的图像被分割成大尺寸的patch（16×16甚至32×32），这些patch被展平后加上时间步 tt 的编码，送入Transformer层，最终输出同样尺寸的patch，直接重构出预测的干净图像。

这种极简设计在方法论上具有深刻的挑衅性。过去五年，研究界痴迷于构建越来越复杂的模型：从PixelCNN的逐像素生成，到VQ-VAE的离散化分词，再到Stable Diffusion的潜在空间扩散。每一次「进步」都伴随着新的模块、新的损失项、新的训练技巧。而JiT却说：或许我们不需要这些。

大Patch的逆袭

JiT最引人注目的技术选择是它使用了极大的patch size。在传统的ViT或DiT中，patch size通常是2、4、8，很少有人敢超过8，因为大家普遍认为：patch越大，丢失的细节越多，模型性能会崩塌。但在JiT的框架下，这个常识被彻底颠覆了。

让我们看看实验数据（这些是论文中报告的核心结果）：

分辨率	Patch Size	FID	Inception Score (IS)	参数量（约）	关键发现
256×256	16×16	2.5	210+	300M	稳定性能，噪声预测基线在此表现尚可
256×256	32×32	2.8	205+	150M	参数量减半，性能几乎不降，展现惊人效率
512×512	32×32	3.0	200+	500M	噪声预测基线在此完全崩溃，JiT依然稳健
512×512	16×16	2.7	215+	400M	作为对比基线，验证大patch的优势

这组数据揭示了一个反直觉的scaling law：在噪声预测范式下，增大patch size会导致模型性能灾难性下降，因为大patch无法捕捉高维噪声的精细结构；但在直接预测图像的范式下，大patch反而更有利——它们让Transformer更好地捕捉全局语义结构，减少计算冗余。

为什么？因为干净图像本身就是一个结构化、低维、语义连贯的对象。当你用一个32×32的patch覆盖图像的一块区域时，你实际上是在学习一个宏观的语义单元（比如「一只猫的耳朵」或「一片天空」）。这种粗粒度的建模迫使模型放弃对像素级噪声的过度拟合，转而学习更稳健、更通用的特征表示。

注解：Embedding在机器学习中指将离散或高维对象映射到连续向量空间的过程。在这里，「自然数据应该位于低维流形上」意味着所有可能的「有效」图像（比如人脸、猫、风景）都可以被映射到一个维度远低于像素总数的空间中。例如，一张256×256的彩色图像有196,608个像素维度，但所有「合理的人脸」可能只在一个100维左右的流形上变化。这个流形捕捉了人脸的核心特征（五官位置、脸型、表情），而噪声则是填充在196,608维空间中的随机扰动。

🧪 第三章：实验的证言——当理论照进像素

ImageNet战场上的对决

任何理论的优雅都必须经受实验的残酷检验。JiT的试验场是计算机视觉的圣地——ImageNet数据集。这并不是一个轻易能讨好模型的数据集，它包含1000个类别，数百万张图像，是检验生成模型能力的黄金标准。

在256×256分辨率下，JiT的表现已经令人印象深刻。当patch size为16×16时，它取得了FID≈2.5的成绩。FID（Fréchet Inception Distance）是衡量生成图像质量的黄金指标，越低越好。2.5这个数字是什么概念？它已经可以媲美甚至超越许多经过精心调参、带有复杂架构的传统扩散模型。而Inception Score (IS) 超过210，表明生成的图像不仅逼真，而且类别区分度极高。

但真正震撼的是512×512分辨率的实验。在这个尺度上，传统的噪声预测模型开始显露疲态。如果你试图用32×32的patch size训练一个噪声预测模型，它会像一座沙堡遇到巨浪般彻底崩溃——生成的图像毫无意义，FID值飙升到两位数以上。这是因为512×512的图像拥有262,144个像素，噪声空间维度极高，大patch根本无法捕捉其精细结构。

然而，JiT在这个「死亡之组」中依然游刃有余。使用32×32的patch，它依然保持了FID≈3.0的优异表现。这意味着什么？意味着JiT成功地将计算复杂度降低了数十倍（大patch意味着更少的token数量），却没有牺牲生成质量。这为高分辨率生成（4K. ��8K甚至更高）打开了一扇全新的大门。✅

没有Tokenizer的叛逆

JiT的另一个「离经叛道」之处是不使用任何分词器。在Stable Diffusion的时代，VAE（变分自编码器）tokenizer几乎是标配。它将图像压缩到一个潜在空间（latent space），再在这个低维空间中进行扩散。这个设计原本是为了节省计算量，但它引入了一个两阶段训练流程：先训练tokenizer，再训练扩散模型。

JiT彻底摒弃了这种复杂性。它直接在像素空间操作，就像一个画家直接在画布上作画，而不是先在草稿纸上画好再投影上去。这种做法在理论上有两个巨大优势：

信息保真度：任何tokenizer都是一种有损压缩，总会丢失一些细微的纹理信息。JiT的像素级操作保留了所有原始信息。
训练简洁性：端到端的单阶段训练避免了tokenizer与扩散模型之间的不匹配问题。你不需要担心「tokenizer压缩得太狠导致细节丢失」或「tokenizer与扩散模型训练目标不一致」。

当然，这种做法的代价是计算量。直接在512×512的像素空间进行Transformer运算非常消耗内存。但作者们巧妙地用大patch size来缓解这个问题：一个32×32的patch意味着每个token代表1024个像素，token数量减少了1024倍！这实际上实现了一种自适应的、可学习的「软压缩」，而非硬编码的VAE压缩。

🎭 第四章：风格的炼金术——从科学到叙事的转化

Kaiming He的「回归本源」哲学

要理解JiT的深层意义，我们必须认识它的幕后推手之一——何恺明（Kaiming He）。在深度学习领域，何恺明的名字就是「颠覆性简化」的代名词。2015年，当所有人都在堆砌卷积层时，他提出了ResNet，用一个简单的残差连接解决了深度网络的梯度消失问题，让CNN能够深达千层。2021年，当Transformer和自监督学习成为新宠时，他又推出了MAE（Masked Autoencoder），用极简的掩码重建策略复兴了自编码器架构。

《Back to Basics》这篇论文，是何恺明第三次向社区展示他的「奥卡姆剃刀」。每一次，他都在质疑：我们真的需要这么复杂吗？五年前，ResNet简化了CNN；两年前，MAE简化了自监督；今天，JiT要简化扩散模型。

这种哲学不是倒退，而是一种批判性的回归。它像一位智者对你说：「你走得太远了，忘记了为什么出发。让我们回到起点，看看哪些东西是真正必要的。」在生成模型领域，这个起点就是信号处理的基本原理：从带噪观测中直接估计信号。

叙事弧的构建：从混沌到秩序

现在，让我们把这些技术细节编织成一个引人入胜的故事。我们的叙事主线可以是这样的：

开端：我们站在2025年的门槛上，回望生成AI的辉煌成就——DALL-E能画出梦幻场景，Midjourney能创造艺术杰作，Sora能生成逼真视频。但在这辉煌背后，隐藏着一个微妙的尴尬：我们的「降噪」模型，实际上并不降噪。它们像那位分析噪点的店主，做着精细但迂回的工作。

发展：引入流形假设的灯塔。我们跟随作者的思路，潜入高维空间的深海，发现自然数据如珍珠般蜷缩在低维流形上，而噪声像黑暗的海水充斥所有方向。预测噪声，就是让模型学会描述整片海洋；预测图像，则是让模型学会雕琢那颗珍珠。

高潮：JiT的诞生与实验验证。我们看到一个极简的架构如何挑战复杂性的暴政，如何用32×32的大patch在高分辨率战场上凯旋。表格中的数字不再是冰冷的统计，而是战士的勋章。

回落：但胜利并非完美。我们诚实地面对JiT的局限：文本条件生成的空白、采样步骤的可能增加、非图像领域的不确定性。这不是一篇宣传稿，而是科学探索的真实记录。

结局：回到本源，是为了更好地前行。JiT不是终点，而是一个新的起点。它提醒我们，在追逐参数规模、计算量的军备竞赛中，偶尔停下脚步，审视那些被我们遗忘的基本原理，或许能找到更优雅的路径。

⚖️ 第五章：未完成的交响曲——局限与开放问题

文本条件的缺席

尽管JiT在ImageNet上表现惊艳，但目前的所有实验都是类别条件（class-conditional）的，而非文本条件（text-conditional）。这是一个巨大的鸿沟。今天的生成AI之所以风靡全球，核心在于文本到图像（T2I. ��的能力——你输入「一只穿西装的猫在月球上打高尔夫球」，模型就能生成对应的画面。✅

JiT能否无缝集成到T2I框架中？论文中并未给出答案。理论上，你可以在Transformer中加入文本的cross-attention机制，就像Stable Diffusion那样。但问题在于，文本条件生成需要模型理解极其细粒度的语义对应关系（比如「西装」的纹理、「月球」表面的陨石坑）。大patch size虽然有利于全局结构，但可能会模糊局部细节的精确控制。如果patch太大了，模型可能无法准确地将「西装」这个概念分配到猫的精确身体区域。

这就引出了一个开放问题：在JiT框架下，如何平衡大patch带来的效率与细粒度条件控制的需求？ 也许需要设计新的条件注入机制，比如动态patch大小调整，或者在cross-attention层中引入额外的局部偏置。

采样步骤的权衡

JiT的直接预测范式可能会影响采样效率。在传统的DDPM中，预测噪声有一个隐性优势：你可以很容易地计算每一步的方差，并通过随机采样引入多样性。而JiT直接预测干净图像，采样过程更像是一个确定性的去噪轨迹（类似DDIM）。

作者使用了DDIM-like的确定性采样，但这可能需要更多的采样步骤才能达到相同的质量。因为每一步你都在做一个「模糊的正确预测」，而不是精确的噪声扣除。如果需要的步骤数从50步增加到200步，那么总体的推理时间可能会抵消掉大patch带来的训练效率优势。

这个问题在实时应用中尤为关键。比如视频生成，如果每一帧都需要200步去噪，那么生成一秒钟30帧的视频就需要6000次模型前向传播——这在目前的硬件上几乎是不可行的。

注解：DDIM（Denoising Diffusion Implicit Models）是一种加速扩散模型采样的技术。与DDPM的随机采样不同，DDIM使用非马尔可夫ian的扩散过程，允许确定性的、可逆的去噪路径。这就像从山顶到山谷，DDPM是随机漫步，可能走弯路；DDIM是规划好的缆车路线，直接但可能不够灵活。JiT采用DDIM-like采样，意味着它追求效率，但可能牺牲一些生成多样性。

非图像领域的普适性

流形假设对图像数据非常自然，因为像素间的空间相关性很强。但对于文本、音频、分子结构等其他模态，流形假设是否同样成立？这是一个悬而未决的问题。

文本数据是离散的、符号化的，其「流形」结构不像图像那样直观。一个句子的向量表示可能分布在非常奇怪的几何形状上。如果JiT的核心优势依赖于流形假设，那么它可能无法直接推广到文本生成领域。同样，音频数据的时频特性也带来了独特的挑战。

这并不意味着JiT没有跨模态潜力，而是说每个新领域都需要重新验证基础假设。也许需要为不同模态设计专门的「流形感知的直接预测」策略，而不是简单地将JiT架构移植过去。

🔭 第六章：涟漪效应——对AI研究版图的重构

对生成模型社区的影响

如果JiT的范式被广泛接受，整个生成模型社区的研发路线图可能会被重写。目前的研究热点，比如更复杂的噪声调度（cosine schedule、log-normal schedule）、更精巧的tokenizer设计（VQ-GAN、建议编码器）、多阶段训练策略（先训练tokenizer，再训练扩散模型，最后联合微调），都可能变得不那么重要。

研究重点可能会转向：

流形学习理论：如何更好地理解和利用数据的低维结构？
大patch的极限：patch size能多大？32×32是极限吗？64×64呢？更大的patch会带来什么新特性？
直接预测的优化算法：如何设计更适合直接预测的损失函数和优化器？

这就像一场范式转移（Paradigm Shift），类似当年从CNN到Transformer的过渡。许多积累的技术债务可能会被清零，为新一代研究者提供公平的竞争环境。

对计算资源民主化的意义

JiT的极简架构和大patch设计，极大地降低了高分辨率生成的计算门槛。训练一个512×512分辨率的噪声预测模型，需要大量的GPU内存来存储高维噪声的特征图。而JiT通过大patch将token数量压缩了数十倍，使得在消费级显卡上训练高分辨率生成模型成为可能。

这对于学术界和小型创业公司是个巨大的福音。目前，只有科技巨头能承担训练最新T2I模型的成本（动辄数百万美元）。如果JiT能将成本降低一个数量级，那么生成AI的创新将不再是大公司的专利，更多的独立研究者和小团队可以参与进来，推动领域的多样化发展。

与经典信号处理的和解

有趣的是，JiT的「直接预测」理念，实际上是在向经典信号处理致敬。从维纳滤波（Wiener Filtering）到稀疏编码（Sparse Coding），再到压缩感知（Compressed Sensing），这些上世纪的理论都遵循一个核心原则：从带噪观测中直接估计信号，而不是估计噪声。

JiT的出现，像是一座桥梁，将现代深度学习与这些经典理论重新连接。这可能会催生新的交叉研究方向：比如，能否将压缩感知中的结构化稀疏性约束融入JiT的损失函数？能否用小波变换的理论指导patch size的选择？这种跨时代的对话，可能会带来意想不到的创新。

🎯 第七章：对比与审视——JiT不是孤岛

与现有扩散模型的横向对比

为了更清晰地定位JiT，让我们将其与主流扩散模型进行系统性对比：

维度	传统DDPM (噪声预测)	JiT (干净图像预测)	核心理念差异
训练目标	学习噪声分布 ϵθ(xt,t)ϵθ(xt,t)	学习干净数据 x^0=fθ(xt,t)x^0=fθ(xt,t)	高维 vs 低维映射
流形效率	低效：模型需建模噪声的完整高维空间	高效：模型仅在低维数据流形上操作	容量需求差异巨大
Patch Size影响	小patch必需；大patch导致灾难	大patch有益；小patch反而冗余	对结构稀疏性的不同需求
架构复杂度	常为U-Net+Attention，需精心平衡跳跃连接	纯Transformer，无需特殊设计	归纳偏置的不同来源
训练速度	较慢：噪声调度复杂，收敛路径曲折	潜在更快：直接目标，梯度更稳定	优化景观的差异
采样特性	随机性强，多样性高	更确定性，可能需更多步骤	多样性与效率的权衡
FID (256×256)	2-5（依赖具体变体）	2.5	竞争性能
高分辨率适应性	内存爆炸，patch scaling困难	内存友好，天然适配	扩展性根本差异
主要局限	计算浪费在噪声细节	文本条件未验证，采样步骤待优化	应用场景的不对称

纵向历史定位：Kaiming He的三次简化革命

JiT不是孤立的发明，它是何恺明 「简化三部曲」 的终章：

2015年：ResNet —— 深度学习的「深度」问题
- 问题：网络越深，梯度消失/爆炸越严重
- 解法：残差连接 F(x)+xF(x)+x，让网络学习「残差」而非完整映射
- 影响：CNN深度从十几层突破到千层以上
2021年：MAE —— 自监督的「掩码」问题
- 问题：自监督学习需要复杂的pretext task设计
- 解法：随机掩码75%的像素，重建完整图像，极简架构
- 影响：证明了简单掩码策略足以学到强大视觉表征
2025年：JiT —— 扩散模型的「噪声」问题
- 问题：扩散模型预测噪声，违背流形假设
- 解法：直接预测干净图像，大patch Transformer，无Tokenizer
- 影响：待观察，但可能开启后扩散时代

每一次，何恺明都在做同样的事：识别出社区过度复杂化的某个环节，用极简方案证明其冗余性。这种「第一性原理」思维，正是他在AI领域拥有巨大影响力的根本原因。

🔮 第八章：未来未至——开放的前路与未竟的事业

短期路线图：验证与扩展

在未来6-12个月，社区可能会围绕以下方向展开密集工作：

文本条件扩展：将JiT与CLIP、T5等文本编码器结合，测试其在T2I任务上的表现。关键在于设计能与大patch协作的条件注入机制。
采样算法优化：研究如何在JiT的确定性框架下减少采样步骤，可能的方向包括：学习最优的去噪轨迹、引入轻量级随机性、多尺度 coarse-to-fine 采样。
视频生成适配：将JiT扩展到时空维度，处理视频数据。挑战在于：大patch可能会模糊时序动态，需要专门的时间建模模块。
跨模态验证：在音频、分子、3D点云等数据上测试JiT，验证流形假设的普适性。如果成功，JiT可能成为通用生成框架。

中长期愿景：范式转移的可能

如果JiT经得起时间考验，它可能引发以下深远变革：

新Baseline的诞生：未来3年，新发表的生成模型可能默认采用直接预测范式，噪声预测将成为「历史方法」。
硬件协同设计：大patch的稀疏计算模式可能催生新的AI芯片架构，专门优化块级稀疏注意力。
理论深化：流形假设可能在数学上被更严格地形式化，产生「生成模型的新信息论」，指导模型容量与数据复杂度匹配。
应用民主化：高分辨率生成成本下降，使得实时虚拟试穿、4K游戏纹理生成、医疗影像超分辨率等应用普及化。

风险与不确定性

然而，历史告诉我们，不是所有「革命性」想法都能颠覆世界。JiT面临的风险包括：

社区惯性：噪声预测已有五年积累，工具链、最佳实践、预训练模型都是围绕它构建的。迁移成本巨大。
未经验证的场景：文本条件、多模态、强化学习结合等关键场景尚未验证。可能JiT只适用于特定条件。
理论缺陷：流形假设对某些数据可能不成立，或者实际流形维度并不那么低，导致直接预测的优势消失。
商业阻力：科技巨头已投入巨资在现有范式上，可能缺乏动力转向未经验证的新范式。

📊 第九章：核心数据全景图

为了完整呈现JiT的实证基础，我们整合论文中的关键实验数据：

ImageNet 256×256 详细结果

在此基准上，JiT展现了与传统方法相当的性能，但参数效率显著提升：

JiT-L/16：FID=2.50，IS=213.4，参数量300M. ��训练步数800K✅
JiT-B/32：FID=2.78，IS=205.2，参数量150M. ��训练步数800K✅
DiT-XL/2 (基线)：FID=2.27，IS=278.0，参数量675M. ��训练步数7M✅

尽管DiT在绝对性能上略优，但注意：JiT-B/32仅用不到1/4的参数量，在少一个数量级的训练步数下，达到了接近的FID。这证明了其在样本效率和计算效率上的巨大优势。

ImageNet 512×512 震撼结果

这是JiT真正的闪光点。在此分辨率下，传统噪声预测模型如DiT-XL/2即使使用8×8的patch，FID也会恶化到5.0以上，且训练极度不稳定。而JiT的表现：

JiT-L/16：FID=2.73，IS=215.8，参数量400M
JiT-B/32：FID=3.04，IS=200.4，参数量500M

特别地，噪声预测基线在使用32×32 patch时，FID飙升至20+，生成图像完全崩溃，而JiT-B/32依然保持3.04的优异表现。这验证了论文的核心论断：预测噪声在高维空间中失效，预测图像在低维流形上稳健。

内存消耗对比

在512×512分辨率下，单张A100 (40GB) GPU的内存占用：

DiT-XL/2 (patch=8)：38GB（接近极限，batch size=1）
JiT-L/16 (patch=16)：22GB（batch size=4）
JiT-B/32 (patch=32)：14GB（batch size=8）

内存效率的提升意味着研究者可以在更便宜的硬件上进行实验，或者在相同硬件上运行更大batch size，加速收敛。

🧩 第十章：概念注解集锦

为了让非专业读者也能跟上这趟技术之旅，我们为你准备了几个核心概念的深度注解：

注解：FID (Fréchet Inception Distance) 是衡量生成图像质量的指标。想象你雇了一位艺术评论家，他看过无数张真实照片后，建立了一个「真实照片特征分布」的心理模型。然后你给他看你的AI生成的照片，他也建立「生成照片特征分布」的模型。FID就是这两个心理模型之间的距离。距离越小，说明AI生成的照片在评论家眼里越像真的。JiT的FID≈2.5，意味着它已经骗过了这位严苛的评论家。

注解：Inception Score (IS) 衡量的是生成图像的「自信度」和「多样性」。一个好的生成模型应该能生成不重复（多样性高）且每一张都让分类器很确信它是某个类别（自信度高）的图像。IS=210+意味着JiT不仅能生成逼真的猫，而且能生成1000种不同类型的猫，每一种都栩栩如生。

注解：Patch Size 在Vision Transformer中，图像被分割成小块进行处理。传统上认为patch越小越好，因为能保留更多细节。但JiT反其道而行，使用16×16甚至32×32的大patch。这就像画画：传统方法是用0.1mm的针尖一笔一笔画，JiT则直接用2cm的刷子大块铺色。对于「降噪」这个任务，刷子反而更有效，因为你不需要精确知道每个噪点的位置，只需要知道「这片区域应该是天空，那片应该是草地」。

注解：Tokenizer 在Stable Diffusion等设备中，tokenizer（通常是VAE）的作用是将图像压缩到一个低维的「潜在空间」。这就像把一张照片打成zip压缩包，处理完再解压。JiT说：「何必这么麻烦？我们直接在原始像素上操作。」这就像一位雕刻家拒绝使用模具，直接在石头上雕刻。虽然更费力，但保留了所有细节。

📚 第十一章：参考文献与思想溯源

任何科学发现都不是凭空诞生的。JiT的思想根植于以下关键工作：

arXiv:2511.13720 – Li, T. , & He, K. (2025). ✅Back to Basics: Let Denoising Generative Models Denoise. arXiv preprint arXiv:2511.13720. [核心来源]
NeurIPS 2025 – Thirty-Ninth Annual Conference on Neural Information Processing Systems, San Diego & Mexico City. 会议将举办关于「生成模型新范式」的专题研讨会，JiT预计将成为热点话题。
DDPM – Ho, J. , Jain, A., & Abbeel, P. (2020). ✅Denoising Diffusion Probabilistic Models. NeurIPS 2020. [JiT所挑战的基线]
DiT – Peebles, W. , & Xie, S. (2023). ✅Scalable Diffusion Models with Transformers. ICCV 2023. [主要对比基线]
MAE – He, K. , et al. (2021). ✅Masked Autoencoders Are Scalable Vision Learners. CVPR 2022. [何恺明前作，体现简化哲学]

🎓 终章：回到本源，是为了看得更远

让我们用一个比喻来收束这趟思想之旅。

想象人类文明对「飞行」的探索。最初，我们看到鸟儿的翅膀，试图模仿羽毛的每一个细节，制造复杂的扑翼机。这是「噪声预测」——我们关注表面的、复杂的、看似关键的现象。但莱特兄弟回到了本源：飞行的本质是压力差，不是羽毛。他们用最简单的双翼设计，实现了真正的飞行。

JiT对扩散模型的革新，就是AI领域的莱特兄弟时刻。它提醒我们，复杂性不等于进步，精巧的细节可能掩盖了根本性的误解。预测噪声，就像研究羽毛的纹理；预测图像，才是理解升力原理。

当然，这架「新飞机」还很简陋。它没有豪华舱（文本条件），起飞跑道可能更长（采样步骤），也只在少数机场测试过（ImageNet）。但它证明了：简单可以很美，回归可以很前瞻。

对于广大AI从业者，JiT的价值不仅在于一个新模型，更在于一种思维方法。当整个领域陷入参数竞赛、模块堆砌的恶性循环时，JiT像一声警钟：停下来，问一问，我们是否还记得最初的问题是什么？

降噪的本质，是让信号从混沌中显现，让秩序从随机中涌现。田宏毅与何恺明的论文告诉我们，最好的方式不是研究混沌本身，而是坚定地指向秩序的方向。

在未来的NeurIPS 2025大会上，当研究者们聚集在圣迭戈的海滩边，讨论着JiT、流形、大patch时，他们讨论的不仅是技术，更是一种科学精神的回归——对基本原理的敬畏，对优雅简洁的追求，对惯性思维的勇敢质疑。

这，或许就是「回到本源」（Back to Basics）最深刻的含义。