【理论推导】流模型 Flow-based Model

最新推荐文章于 2024-12-04 16:50:58 发布

slothfulxtx

最新推荐文章于 2024-12-04 16:50:58 发布

阅读量1.3k

点赞数

分类专栏：生成模型文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/fnoi2014xtx/article/details/129959916

版权

生成模型专栏收录该内容

5 篇文章

订阅专栏

数学前置

Jacobian矩阵：给定函数 $\R^{n}\times \R^m$ ，该函数的所有一阶偏导数组成的矩阵 $J$ 称为 Jacobian 矩阵
$\begin{bmatrix} \frac{\partial f_1}{\partial x_1} & ... & \frac{\partial f_1}{\partial x_n}\\ ... & ... & ...\\ \frac{\partial f_m}{\partial x_1} & ... & \frac{\partial f_m}{\partial x_n} \end{bmatrix}_{m\times n}$
若 $m = n$ ，可以定义关于方阵 $J$ 的行列式
$\text{det}(J) = \sum_{j_1,...,j_n}(-1)^{\tau(j_1...j_n)} a_{1,j_1}...a_{n,j_n}$
其中 $j_1...j_n$ 是 $1... n$ 的一个排列， $\tau(\cdot)$ 表示置换中逆序对的个数/从初始排列 $(1, ..., n)$ 交换得到该排列的次数，从含义角度来讲，行列式可以看作是有向面积/体积向 $n$ 维空间的一个推广，例如对于 $n = 2$ 时，行列式的绝对值即为向量 $a_{1,1},a_{1,2})$ 与向量 $a_{2,1}, a_{2,2})$ 张成的平行四边形的面积

变量变换定理：给定随机变量 $z$ 及其概率密度函数 $\pi(z)$ ，对于新变量 $x$ ，若存在双射函数 $f$ ，满足 $x = f (z)$ 且 $z=f^{-1}(x)$ ，那么对于新变量 $x$ 的概率密度函数 $p (x)$ ，由于 $\int_{z\in \R} \pi(z) dz = \int_{x\in \R} p(x) dx = 1$ ，有如下性质
$\pi(z)|dz| \\ p(x) = \pi(z)\frac{|dz|}{|dx|} = \pi(f^{-1}(x)) \left|\frac{d f^{-1}}{dx}\right|$
扩展到向量上，对于 $f:\R^n\rightarrow \R^n$ ，有
$\pi(f^{-1}(x))|\text{det}(J_{f^{-1}})|$

Flow-based Model

假定真实数据分布 $q$ ，数据集中每个数据点 $x_i$ 可以看作是一个采样 $x\sim q(x)$ ，我们希望使用模型 $f_{\theta}(\cdot)$ 建模真实数据分布 $q$ ，使得对于已知分布 $z\sim\pi(z)$ ，可以通过 $f_\theta(z)$ 将其变换到拟合出的真实数据分布 $p_\theta$ 上，训练目标即为最小化KL散度 $\text{KL}(q(x)||p_{\theta(x)})$ ，等价于最大化对数似然函数
$\arg \max_\theta \sum_{i=1}^N \log p_\theta(x^{(i)})$
其中 $x^{(i)}$ 为从真实数据分布 $q$ 中的 $N$ 次采样，利用变量变换定理，可得
$\log p_\theta(x^{(i)}) = \log \pi(f^{(-1)}(x^{(i)}))+\log |\text{det}(J_{f^{-1}})|$
在训练过程中，我们只需要利用 $f^{(-1)}$ ，而在推理过程中，我们使用 $f$ 进行生成，因此对 $f$ 约束为： $f$ 网络是可逆的。这对网络结构要求比较严格，在实现时，通常要求 $f$ 的输入输出是相同维度的来保证 $f$ 的可逆性。注意到，如果 $f$ 可以表示为若干映射的叠加 $f_1\circ f_2\circ ... f_K$ ，那么有
$\log p_\theta(x^{(i)}) = \log \pi(f^{(-1)}(x^{(i)}))+\sum_{k=1}^{K}\log |\text{det}(J_{f_k^{-1}})|$
在这里插入图片描述

RealNVP

在这里插入图片描述
整体思路是，固定特征的一部分，利用该部分预测一个针对其他部分的仿射变换的参数，这里 $s(\cdot), t(\cdot)$ 两部分没有约束，这是因为

在计算行列式的时候，由于空子矩阵的存在，因此 $s, t$ 并不影响最终的行列式的值。堆叠该变换时，可以交替设置恒等映射的特征维度，以此来建模全体维度的变换