跳转到内容
输入关键词后按 Enter 打开第一个结果。

Diffusion Transformer(DiT)知识体系结构图

Diffusion Transformer(DiT)知识体系结构图

Section titled “Diffusion Transformer(DiT)知识体系结构图”

创建日期:2026-04-11 定位:知识脉络梳理,非入门级解释


扩散生成模型 (Diffusion Models)
├── 传统骨干:U-Net(DDPM, LDM, Stable Diffusion 1.x/2.x)
└── 新一代骨干:DiT(Diffusion Transformer)
├── 核心思想:用 Transformer 替换 U-Net 作为去噪骨干
├── 架构要点
│ ├── Patchify:将噪声潜变量切分为 patch token
│ ├── 条件注入:adaLN-Zero(自适应 LayerNorm + 零初始化)
│ ├── Scalability:模型规模(S/B/L/XL)+ 采样步数可预测地提升质量
│ └── 位置编码:learned positional embedding
├── 关键论文与里程碑
│ ├── Peebles & Xie (2023) —— DiT 原始论文
│ ├── Sora (OpenAI, 2024) —— 视频生成的 DiT 变体(Spacetime Patch)
│ ├── Stable Diffusion 3 (2024) —— MMDiT(多模态 DiT)
│ ├── FLUX (Black Forest Labs, 2024) —— 流匹配 + DiT
│ ├── PixArt-Σ / Π —— 高分辨率图像 DiT
│ └── HunyuanVideo, CogVideoX —— 视频 DiT 代表
├── 变体分支
│ ├── 图像生成:DiT-XL/2, SD3, FLUX, PixArt
│ ├── 视频生成:Sora, Open-Sora, CogVideoX, HunyuanVideo, MovieGen
│ ├── 3D 生成:Point-E → 当代 3D DiT 方法
│ └── 统一架构:Emu3 (自回归+扩散统一)
└── 训练范式
├── 标准扩散训练(ε-prediction / v-prediction)
├── Flow Matching(流匹配,FLUX/SD3 采用)
├── Rectified Flow
└── 连续时间一致性

二、核心思想:为什么用 Transformer 替换 U-Net?

Section titled “二、核心思想:为什么用 Transformer 替换 U-Net?”
维度U-Net(传统)DiT(新一代)
架构卷积 + 跳跃连接纯 Transformer
归纳偏置强(局部性、平移等变性)弱(通用序列建模)
可扩展性受限,规模增大收益递减近似幂律,规模越大越好
条件注入交叉注意力 / Adaptive ConvadaLN-Zero
代表作SD 1.5/2.1, DALL-E 2Sora, SD3, FLUX

关键洞察:U-Net 的卷积归纳偏置在低数据量时有益,但数据量足够大时反而限制了模型上限。Transformer 的通用性使其在大规模下展现出更优的 scaling behavior。


  • 输入:噪声潜变量 z ∈ ℝ^(H×W×C)
  • 操作:将 z 切分为 p×p 的 patch,每个 patch 线性投影为一个 token
  • 结果:序列长度 N = (H/p) × (W/p),p 常取 2
  • 本质:与 ViT 完全相同的策略,将 2D 特征图转为 1D token 序列
  • adaLN(自适应 LayerNorm):将条件信息(时间步 $t$、类别/文本 embedding)通过 MLP 映射为 scale (γ) 和 shift (β) 参数,调制 LayerNorm
  • Zero 初始化:每个 DiT block 中条件调制的输出层初始化为零 → 训练初期该 block 等价于恒等映射
  • 效果:比交叉注意力更高效,条件信号直接作用于每一层的主路径

DiT 定义了四个规模等级:

变体参数量patch 大小GFLOPs
DiT-S/233M2×2~4.6
DiT-B/2130M2×2~16.9
DiT-L/2458M2×2~59.5
DiT-XL/2675M2×2~85.4

核心发现:FID 与总计算量(GFLOPs)呈可预测的幂律关系,规模越大、采样步数越多 → 质量越好。

  • 最终处理:token 序列 → 反 patchify(reshape 回 2D)→ 线性层预测噪声 / 速度场
  • 无 U-Net 的解码器结构,更简洁

  • 论文:Scalable Diffusion Models with Transformers
  • 贡献:首次系统证明 Transformer 可作为扩散模型骨干,且 scaling 性能优于 U-Net
  • 关键实验:ImageNet 类条件生成,DiT-XL/2 达到 SOTA FID
  • 技术:Spacetime Patch Tokenization(时空 patch),3D 变分自编码器压缩视频
  • 意义:将 DiT 从图像扩展到视频,证明了统一的 patch 化策略可处理任意分辨率/时长
  • 影响:引爆了视频生成领域的 DiT 潮流
  • 技术:Multi-Modal DiT — 文本和图像 token 在同一 Transformer 中联合处理
  • 创新:双流架构(文本流 + 图像流)共享权重,比简单拼接更高效
  • 训练:Flow Matching 替代传统扩散训练
  • 团队:原 SD 核心作者(Robin Rombach 等)
  • 技术:流匹配 + DiT 骨干 + 旋转位置编码(RoPE)
  • 特点:极高的图像质量和文本遵循能力
工作方向特点
PixArt-α/Σ图像高分辨率,高效训练
Open-Sora / Open-Sora-Plan视频开源复现 Sora
CogVideoX视频智谱开源,3D RoPE
HunyuanVideo视频腾讯,高保真
Emu3统一自回归 + 扩散统一框架
Lumina-T2X统一Flow + DiT,任意分辨率

  • 大多数实际系统(Sora, SD3, FLUX)都在潜空间操作(继承 LDM 思想)
  • VAE/VAE-3D 编码器先压缩像素空间 → DiT 在低维潜空间去噪 → 解码回像素
  • 大幅降低计算成本,使高分辨率生成可行

5.2 图像 → 视频 → 3D 的扩展路径

Section titled “5.2 图像 → 视频 → 3D 的扩展路径”
图像 DiT(2D patches)
└─→ 视频 DiT(时空 patches / 3D VAE)
└─→ 3D DiT(体素/点云 patches)
  • 视频:时间维度建模(3D attention 或 temporal attention 层)
  • 3D:将 3D 数据结构化为 patch 序列(类似 Point-ViT 思路)
传统扩散(DDPM/DDIM)
└─→ Flow Matching(连续归一化流视角)
└─→ Rectified Flow(更直的 ODE 路径,更少步数)

Flow Matching 正在成为 DiT 系列的主流训练范式(SD3、FLUX 均采用)。


本笔记接续**扩散模型知识体系**中的扩散模型知识脉络。

  • 扩散模型笔记 梳理了 DDPM → DDIM → LDM(Stable Diffusion)的主线,以 U-Net 为默认骨干
  • 本笔记 聚焦于扩散模型的骨干架构演进:从 U-Net 到 Transformer 的范式转换
  • 两篇笔记的关系:扩散模型笔记 = 基础理论框架;DiT 笔记 = 骨干架构的当代演进
  • 扩散模型笔记中的 LDM(潜空间扩散)概念在 DiT 生态中被全面继承(Latent DiT)

建议阅读顺序:先理解扩散模型基础 → 再看 DiT 如何用 Transformer 替换骨干。