VAE——变分自编码器的数学推导

最新推荐文章于 2025-04-29 13:25:46 发布

ffiirree

最新推荐文章于 2025-04-29 13:25:46 发布

阅读量828

点赞数 2

分类专栏：机器学习文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/ice__snow/article/details/115171703

版权

机器学习专栏收录该内容

4 篇文章

订阅专栏

这篇博客探讨了生成模型的构建，其中隐变量z先从单位高斯分布采样，再通过解码器神经网络生成图像x。由于p(z|x)的计算困难，采用了变分推断作为解决方案，通过最小化KL散度来逼近真实的后验分布p(z|x)。文章提到了近似推断的两种方法——MCMC和VI，重点阐述了VAE如何利用VI来转换推断问题为优化问题，并假设后验近似为高斯分布。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

问题

考虑一个生成模型(Generative model)，可以从一个隐变量(latent variable, z)映射到一张图片(x)，用有向无环图模型(directed acyclic graphical model / Bayesian network)表示为
在这里插入图片描述
上图表示，x的分布可以通过首先从p(z)采样得到z后再从p(x|z)采样建模。

p(z) 是先验概率，意味着只需要选择一个合适的分布就可以了，一般采用单位高斯分布(unit Gaussian distribution)，因为高斯分布的熵最大。(Paper: Let the prior over the latent variables be the centered isotropic multivariate Gaussian $p (z) = N (z; 0; I)$ )
p(x|z) 用神经网络进行表示 $\theta) = decoder(z; \theta)$

此时已经对生成模型建模完毕，接下来为了进行求解，也就是要学习到参数 $\theta$ 。目前，唯一确定的是数据集样本x，当可以得到 $\rightarrow \hat x$ 后，还需要确定 $\hat{x}, z$ 三者之间的对应关系，如下图
在这里插入图片描述
为题转换为：已知一个数据集中的样本x，如何确定对应的隐变量z，也就是求解p(z|x)。

因为 $\int p(x|z)p(z) dz$ 不可通过数值计算获得结果，且
$\frac{p(x|z)p(z)}{p(x)}$
同样不可数值求解，因此使用近似推断的方法进行求解。近似推断有两大方法：MCMC(马尔可夫蒙特卡洛)和VI(变分推断)法，VAE正是使用了VI得名。

概念

泛函是将自变量函数映射到数值上的函数。
变分法求解泛函极值的方法。
散度可以简单的理解为不需要对称性的距离，即不要求从P到Q的值等于从Q到P的值。
KL散度 $E_{x \sim P(x)}[\log P(x) - \log Q(x)]$ 。

VI

预设一个关于隐变量的密度函数的集合 $\mathcal{Q}$ ，从中找到一个函数 $Q (z)$ 使得和 $p (z ∣ x)$ 的最接近，使用KL散度来衡量
$Q^*(z) = \arg \min_{Q(z)\in \mathcal{Q}}KL(Q(z)|P(z|x))$

由此，变分推断将一个推断问题转化为了优化问题。

(Paper: While there is much freedom in the form $q (z ∣ x)$ , we’ll assume the true (but intractable) posterior takes on a approximate Gaussian form with an approximately diagonal covariance)