DDPM 前向过程的公式推导

置顶深圳市进化图灵智能科技有限公司

已于 2025-04-20 23:14:42 修改

阅读量485

点赞数 4

分类专栏： AI 文章标签：人工智能

于 2024-11-18 11:51:44 首次发布

本文链接：https://blog.csdn.net/WMX843230304WMX/article/details/143850961

版权

AI 专栏收录该内容

60 篇文章

订阅专栏


AI学习交流qq群	873673497
官网	turingevo.com
邮箱	wmx@turingevo.com
github	https://github.com/turingevo
huggingface	https://huggingface.co/turingevo

论文《 Denoising Diffusion Probabilistic Models 》前向过程的公式推导

原文：
在这里插入图片描述

推导前向加噪声的过程

这张图展示的是扩散过程的一个重要特性：可以直接基于原始数据 $x_0$ 来对任意时间步 t 的 $x_t$ 进行采样。具体的推导过程如下：

初始化：
$x_t = \sqrt{\bar{\alpha}_t} x_0 + \sqrt{1 - \bar{\alpha}_t} \epsilon$
其中， $\bar{\alpha}_t = \prod_{i=1}^{t} \alpha_i$ ， $\epsilon \sim N(0, I)$
递推公式：
$x_t = \sqrt{\alpha_t} x_{t-1} + \sqrt{1 - \alpha_t} \epsilon_{t-1}$
其中， $\alpha_t = 1 - \beta_t$
逐层展开：
$x_t = \sqrt{\alpha_t} \left( \sqrt{\alpha_{t-1}} x_{t-2} + \sqrt{1 - \alpha_{t-1}} \epsilon_{t-2} \right) + \sqrt{1 - \alpha_t} \epsilon_{t-1}$
继续展开，直到 $x_0$ ：
$x_t = \sqrt{\alpha_t \alpha_{t-1} \cdots \alpha_1} x_0 + \sqrt{1 - \alpha_t \alpha_{t-1} \cdots \alpha_1} \epsilon$
其中 $\epsilon = \sqrt{1 - \alpha_t \alpha_{t-1} \cdots \alpha_1} \cdot \tilde{\epsilon}_{t-1}$
高斯分布的相加：
如果 $\sim N(\mu_X, \sigma_X^2)$ 和 $\sim N(\mu_Y, \sigma_Y^2)$ ，则 $Z = X + Y$ 服从 $N(\mu_X + \mu_Y, \sigma_X^2 + \sigma_Y^2)$
最终结果：
$x_t = \sqrt{\bar{\alpha}_t} x_0 + \sqrt{1 - \bar{\alpha}_t} \epsilon$
其中， $\epsilon \sim N(0, I)$

这个推导过程表明，通过逐层展开并利用高斯分布的相加性质，可以从原始数据 $x_0$ 直接生成任意时间步 t 的样本 $x_t$ ,这就是DDPM模型前向计算给图片加噪声的过程！！！

关于上面步骤5的推导，高斯分布的相加性质，准确说是标准正态分布的相加

要从给定的表达式

$x_t = \sqrt{\alpha_t \alpha_{t-1}} x_{t-2} + \sqrt{\alpha_t (1 - \alpha_{t-1})} \epsilon_{t-2} + \sqrt{1 - \alpha_t} \epsilon_{t-1}$

推导到 $x_t = \sqrt{\alpha_t \alpha_{t-1}} x_{t-2} + \sqrt{1 - \alpha_t \alpha_{t-1}} \epsilon'$

我们需要证明 $\epsilon'$ 可以表示为 $\epsilon_{t-2}$ 和 $\epsilon_{t-1}$ 的线性组合，并且这个组合的方差为： $\alpha_t \alpha_{t-1}$

步骤 1：定义新的随机变量 $\epsilon'$

$\epsilon' = \sqrt{\alpha_t (1 - \alpha_{t-1})} \epsilon_{t-2} + \sqrt{1 - \alpha_t} \epsilon_{t-1}$

步骤 2：计算 $\epsilon'$ 的期望值
由于 $\epsilon_{t-2}$ 和 $\epsilon_{t-1}$ 都是零均值的标准正态分布随机变量，即 $\mathbb{E}[\epsilon_{t-2}] = 0$ 和 $\mathbb{E}[\epsilon_{t-1}] = 0$ ，因此：
$\mathbb{E}[\epsilon'] = \mathbb{E}[\sqrt{\alpha_t (1 - \alpha_{t-1})} \epsilon_{t-2} + \sqrt{1 - \alpha_t} \epsilon_{t-1}]$
$\mathbb{E}[\epsilon'] = \sqrt{\alpha_t (1 - \alpha_{t-1})} \mathbb{E}[\epsilon_{t-2}] + \sqrt{1 - \alpha_t} \mathbb{E}[\epsilon_{t-1}]$
$\mathbb{E}[\epsilon'] = 0$
所以 $\epsilon'$ 也是零均值的
步骤 3：计算 $\epsilon'$ 的方差
接下来计算 $\epsilon'$ 的方差。由于 $\epsilon_{t-2}$ 和 $\epsilon_{t-1}$ 是独立的标准正态分布随机变量，即 $\text{Var}(\epsilon_{t-2}) = 1$ 和 $\text{Var}(\epsilon_{t-1}) = 1$ ，（因为相互独立)它们之间的协方差为零，因此：
$\text{Var}(\epsilon') = \text{Var}(\sqrt{\alpha_t (1 - \alpha_{t-1})} \epsilon_{t-2} + \sqrt{1 - \alpha_t} \epsilon_{t-1})$
$\text{Var}(\epsilon') = \text{Var}(\sqrt{\alpha_t (1 - \alpha_{t-1})} \epsilon_{t-2}) + \text{Var}(\sqrt{1 - \alpha_t} \epsilon_{t-1})$
$\text{Var}(\epsilon') = (\sqrt{\alpha_t (1 - \alpha_{t-1})})^2 \text{Var}(\epsilon_{t-2}) + (\sqrt{1 - \alpha_t})^2 \text{Var}(\epsilon_{t-1})$
$\text{Var}(\epsilon') = \alpha_t (1 - \alpha_{t-1}) \cdot 1 + (1 - \alpha_t) \cdot 1$
$\text{Var}(\epsilon') = \alpha_t (1 - \alpha_{t-1}) + 1 - \alpha_t$
$\text{Var}(\epsilon') = \alpha_t - \alpha_t \alpha_{t-1} + 1 - \alpha_t$
$\text{Var}(\epsilon') = 1 - \alpha_t \alpha_{t-1}$
步骤 4：替换原表达式中的 $\epsilon_{t-2}$ 和 $\epsilon_{t-1}$
现在我们已经证明了 $\epsilon'$ 是零均值且方差为 $\alpha_t \alpha_{t-1}$ 的随机变量，可以将原表达式中的 $\epsilon_{t-2}$ 和 $\epsilon_{t-1}$ 替换为 $\epsilon'$ ：
$x_t = \sqrt{\alpha_t \alpha_{t-1}} x_{t-2} + \sqrt{\alpha_t (1 - \alpha_{t-1})} \epsilon_{t-2} + \sqrt{1 - \alpha_t} \epsilon_{t-1}$
$x_t = \sqrt{\alpha_t \alpha_{t-1}} x_{t-2} + \epsilon'$