跳转到内容
输入关键词后按 Enter 打开第一个结果。

扩散模型(Diffusion Models)知识体系

扩散模型(Diffusion Models)知识体系

Section titled “扩散模型(Diffusion Models)知识体系”

🐱 金豆整理 · 2026-04-02


  • 定义:逐步向数据添加高斯噪声,形成马尔可夫链
  • 公式q(x_t | x_{t-1}) = N(x_t; √(1-β_t) x_{t-1}, β_t I)
  • 关键性质:任意时刻 x_t 的闭式解 q(x_t | x_0) = N(x_t; √ᾱ_t x_0, (1-ᾱ_t)I)
  • 噪声调度:线性调度、余弦调度、sigmoid 调度
  • 目标:学习逆向马尔可夫链 p_θ(x_t-1 | x_t)
  • 参数化:用神经网络预测噪声 ε_θ(x_t, t) 或直接预测 x_0
  • 核心等式x_t-1 = (1)/(√(α_t)(x_t - (β_t)/(√(1-\barα_t)ε_θ(x_t, t)) + σ_t z
  • 证据下界(ELBO):最大化 log p_θ(x) 的下界
  • 损失分解:重建项 L_0、先验匹配项 L_T、去噪匹配项 Σ_t=1^T L_t
  • 简化损失L_simple = E_t,x_0,ε[\|ε - ε_θ(x_t, t)\|^2]
  • 分数函数s_θ(x) = ∇_x log p_θ(x)
  • 去噪分数匹配:通过注入不同噪声水平的样本学习条件分数
  • 与 Langevin 动态采样的联系x_t+1 = x_t + (ε)/(2) s_θ(x_t) + √(ε z
  • 正向 SDEdx = f(x,t)dt + g(t)dw
  • 逆向 SDEdx = [f(x,t) - g(t)^2 ∇_x log p_t(x)]dt + g(t)d\bar w
  • 概率流 ODE:确定性采样替代
  • 统一框架:DDPM(VP-SDE)、Score-based(SMLD)、一致模型均可在此框架下理解
  • 核心思想:在向量场中定义从噪声分布到目标分布的传输
  • 条件流匹配(CFM):以 x_0 为条件学习向量场
  • 与扩散的关系:扩散模型是流匹配的特殊情况

论文贡献
DDPM (Ho et al., NeurIPS 2020)首个成功的高斯扩散生成模型
Score-based (Song & Ermon, NeurIPS 2020)基于分数匹配 + Langevin 动态的统一框架
论文贡献
DDIM (Song et al., ICLR 2021)确定性采样,10-50× 加速
Score SDE (Song et al., ICLR 2021)SDE 统一框架
Classifier Guidance (Dhariwal & Nichol, NeurIPS 2021)分类器引导可控生成
论文贡献
Classifier-Free Guidance (Ho & Salimans, NeurIPS 2022)无需分类器的条件生成
Stable Diffusion (Rombach et al., CVPR 2022)潜空间扩散,大幅降低计算成本
DALL·E 2 / Imagen高质量文生图
论文/系统贡献
Consistency Models (Song et al., 2023)单步生成
DiT (Peebles & Xie, 2023)Transformer 取代 U-Net
Rectified Flow (Liu et al., 2023)流匹配成为新范式
Sora (OpenAI, 2024)大规模视频扩散
Flux (Black Forest Labs, 2024)rectified flow + Transformer
  • Flow Matching 主导、DiT 标准化、视频/3D 扩散实用化、AI for Science 扩展

方法典型步数
DDIM20-50
DPM-Solver10-20
UniPC5-20
一致性模型1-2
LCM / Turbo1-4

Classifier-Free Guidance (CFG) 是当前主流: ~ε = ε_uncond + w · (ε_cond - ε_uncond),通常 w = 3.5 \sim 7.5

架构代表模型
U-NetDDPM, SD 1.x/2.x
DiTSD3, PixArt, Flux
MM-DiTSD3
Rectified Flow TransformerFlux

在 VAE 编码的潜空间中扩散(8×8 vs 512×512),大幅降低计算成本。条件通过 Cross-attention 注入,ControlNet 提供额外控制。


  • 图像生成:Stable Diffusion, DALL·E, Midjourney, Flux
  • 视频生成:Sora, Kling, Vidu, HunyuanVideo
  • 3D 生成:DreamFusion, Magic3D, EG3D
  • 音频/音乐:AudioLDM, Bark, MusicGen
  • 科学应用:RFdiffusion(蛋白质)、天气预报、分子设计

维度GANVAEFlow自回归扩散
训练稳定性⚠️
样本质量⚠️✅✅
多样性
采样速度⚠️⚠️→✅
可控性⚠️⚠️⚠️

  • 架构:DiT/Transformer 主导、Mamba、混合架构
  • 训练:Flow Matching / Rectified Flow 成为默认范式
  • 视频:统一图像-视频模型、物理世界模拟
  • 3D:文本到 4D、大规模 3D 预训练
  • AI for Science:蛋白质、材料、天气
  • 多模态统一:共享主干

  1. 入门(1-2周):DDPM + DDIM,实现简单扩散模型
  2. 进阶(2-4周):SDE 框架、CFG、Latent Diffusion,微调 SD
  3. 深入(持续):跟踪 Flow Matching/DiT/Consistency,阅读顶会论文

#论文年份关键词
1DDPM2020去噪扩散
2Score-based2020分数匹配
3DDIM2021确定性采样
4Score SDE2021SDE 统一
5CFG2022无分类器引导
6Latent Diffusion2022SD
7DiT2023Transformer
8Rectified Flow2023流匹配
9Consistency2023单步生成
10Flux2024RF + Transformer