视频扩散模型迎来革新！NUS提出TPDiff框架：训练成本减半，推理速度飙升！-CSDN博客

本文链接：https://blog.csdn.net/DataSourceAI/article/details/146297374

🌐 社群导航

🔗 点击加入➡️【AIGC/LLM/MLLM/3D/自动驾驶】技术交流群

🔗 点击加入➡️【2-3月CCF投稿】交流群

最新论文解读系列

论文名：TPDiff: Temporal Pyramid Video Diffusion Model

论文链接：https://arxiv.org/pdf/2503.09566

项目链接：https://showlab.github.io/TPDiff/

导读

视频扩散模型的发展揭示了一个重大挑战：巨大的计算需求。为了缓解这一挑战，我们注意到扩散的逆过程具有内在的熵减特性。鉴于视频模态中的帧间冗余，在高熵阶段保持全帧率是不必要的。基于这一见解，我们提出了TPDiff，一个统一的框架来提高训练和推理效率。通过将扩散过程划分为几个阶段，我们的框架在扩散过程中逐步提高帧率，仅在最后阶段以全帧率运行，从而优化计算效率。为了训练多阶段扩散模型，我们引入了一个专门的训练框架：分阶段扩散。通过在对齐的数据和噪声下求解扩散的分区概率流常微分方程（ODE），我们的训练策略适用于各种扩散形式，并进一步提高了训练效率。全面的实验评估验证了我们方法的通用性，证明了训练成本的降低和推理效率的提高。

简介

随着扩散模型的发展，视频生成取得了重大突破。最先进的视频扩散模型不仅使个人能够进行艺术创作，还在机器人技术和虚拟现实等其他领域展现出巨大潜力。尽管视频扩散模型性能强大，但对空间和时间分布进行联合建模的复杂性使得它们的训练成本高得令人望而却步。此外，随着对长视频需求的增加，训练和推理成本也将相应持续增加。

图1. 我们方法的概述。我们的方法采用渐进帧率，如图（a）和（b）所示，仅在最后阶段使用全帧率，从而在训练和推理中都大大优化了计算效率，如图（c）所示。

方法

1. 预备知识

去噪扩散隐式模型DDIM通过在潜在空间中操作扩展了DDPMs。与DDPM类似，在正向过程中，DDIM根据噪声调度将真实数据转换为一系列中间样本，最终转换为高斯噪声：

其中和表示总时间步长。在向潜变量添加噪声后，我们通常会训练一个神经网络来预测所添加的噪声。形式上，使用以下目标进行训练：

给定一个预训练的扩散模型，可以通过求解相应的概率流常微分方程（ODE）来生成新数据。去噪扩散隐式模型（DDIM）本质上是一个一阶常微分方程求解器，它通过以下方式制定了一个去噪过程，从样本生成：

(3)

图 2. 方法。a) 时间金字塔视频扩散模型的流程。我们将扩散过程划分为多个帧率递增的阶段。在每个阶段，新帧最初是从现有帧进行时间插值得到的。b) 我们的训练策略：分阶段扩散。在普通扩散模型中，沿常微分方程路径的噪声方向指向真实数据分布。在分阶段扩散中，噪声方向指向当前阶段的终点。

其中

。

流匹配基于流的生成模型旨在学习一个速度场，该速度场将高斯噪声转换为真实数据的分布。流匹配采用噪声和数据之间的线性插值：

它训练一个神经网络来匹配速度场，然后针对给定的边界条件求解常微分方程以获得流。流匹配损失函数如下：

(5)

2. 时间金字塔扩散

现有视频扩散模型的核心模块——注意力机制，在序列长度方面呈现出二次复杂度。我们的目标是减少视频生成中的序列长度并降低计算成本。我们的方法基于两个关键见解：1) 连续视频帧之间存在相当大的冗余。2) 扩散过程的早期阶段保持低信噪比（SNR），导致信息含量极少。这表明在这些初始时间步以全帧率运行是不必要的。基于这些见解，我们提出了如图 2 所示的时间金字塔视频扩散。与使用固定帧率的传统视频扩散模型相比，我们的框架在去噪过程中逐步提高帧率。

详细来说，我们将扩散过程划分为多个阶段，每个阶段具有不同的帧率，并使用单个模型来学习所有阶段的数据分布。我们创建个阶段，其中表示总时间步长。第阶段的帧率降低到原始帧率的。这确保只有最后一个阶段以全帧率运行，从而优化计算效率。尽管具有效率优势，但普通扩散模型不支持多阶段训练和推理。因此，剩余的挑战是：1) 如何以统一的方式训练多阶段扩散模型，这将在 3.3 节和 3.4 节中介绍；2) 如何进行推理，这将在 3.5 节中讨论。

3. 训练策略

在阶段中，我们将表示为起始和结束时间步，将和分别表示为起点和终点。训练的目标是在每个阶段将的分布转换为的分布。为了实现这一目标，关键在于获得分阶段的 1) 目标，即在去噪扩散隐式模型（DDIM）中的和在流匹配中的，以及 2) 中间隐变量，其中。接下来，我们将介绍一个名为分阶段扩散的统一训练框架。

分阶段扩散为了确保通用性，认识到不同的扩散框架具有如方程 1 和方程 4 所示的相似形式，我们提出一种统一的扩散形式：

其中和的形式取决于所选的扩散框架。我们的推导基于方程 6，而不限制和的参数化。考虑到具有不同帧率的阶段之间的连续性，我们通过以下方式得到和：

其中和是沿时间轴进行次下采样和上采样。我们从方程 7 中前一阶段的终点推导出当前阶段的起点，以连接相邻阶段，这对于推理至关重要，将在 3.5 节中介绍。然而，这种设计也会导致边界分布偏移，我们无法直接从方程 7 和方程 8 中获得训练目标。相反，我们应该在每个阶段根据边界条件和计算添加的噪声。幸运的是，DPM 求解器推导了扩散常微分方程（ODE）路径上任意两点和之间的关系，这种关系也可以应用于我们方法中的任何阶段。因此，在阶段中，用替换，用替换，我们可以将中间隐变量表示为的函数：

其中，并且是的反函数。方程 9 由两部分组成：一个由给出的确定性缩放因子，以及噪声的指数加权积分。如果在阶段中是一个常数，记为，则上述积分等价于：

虽然在任何阶段强制为恒定值具有挑战性，但我们可以利用数据 - 噪声对齐来将其值限制在一个狭窄的范围内。具体来说，在向视频添加噪声之前，我们通过最小化如图 3 所示的视频 - 噪声对之间的总距离，预先确定每个视频的目标噪声分布，从而确保数据 - 噪声对齐，并且方程 9 近似等同于方程 10。对齐过程可以使用 SciPy以如算法 1 所示的一行代码实现。

图3. 数据 - 噪声对齐。对于每个训练样本，(a) 普通扩散训练在整个噪声分布中随机采样噪声，导致训练期间的常微分方程（ODE）路径具有随机性。(b) 相比之下，我们的方法在最接近的范围内采样噪声，使训练期间的ODE路径近似确定。

算法1 数据 - 噪声对齐

我们的实验表明，这种近似是有效的，并且不会影响模型的性能。

通过数据 - 噪声对齐，我们可以将方程10应用于该阶段的任何点，包括终点。通过将和代入方程10，经过简单变换，我们得到阶段的噪声的表达式：

然后，我们可以通过将代入方程10轻松得到阶段中的任何中间点。因此，我们可以使用我们方法中得到的和计算相应的损失，并以与普通扩散训练相同的方式优化模型参数。请注意，上述推导并未限制和的表达式，这使得我们的方法适用于不同的扩散框架。我们还注意到，如图2所示，的方向指向当前阶段的终点，而不是普通扩散模型中的最终目标。通过减小中间点与其目标点之间的距离，我们的方法促进了训练过程，并进一步加速了模型收敛。

4 实际实现

实际上，对于常微分方程（ODE）路径是弯曲的扩散框架，如去噪扩散隐式模型（DDIM），我们可以将和代入方程10和方程11以得到和。对于流匹配，由于它可以将任何先验分布转换为其他分布，我们可以将每个阶段建模为一个完整的流匹配过程，从而得到一个更简单的表达式：

其中。并且阶段的目标是：

金字塔流忽略的一个方面是噪声 - 数据对齐，这导致先验分布的方差增加，从而阻碍了模型收敛。值得注意的是，如果我们将每个阶段建模为一个完整的DDIM过程，模型将无法收敛。这是因为单个模型很难拟合多个弯曲的ODE轨迹。

总之，我们在算法2中可视化了我们方法的训练过程。

算法2 分阶段扩散

5 推理策略

训练完成后，我们可以使用标准采样算法来求解每个阶段的反向ODE。然而，需要仔细处理阶段连续性。

一个阶段完成后，我们首先通过插值在时间维度上对进行上采样，使其帧率翻倍。随后，我们对进行缩放，并注入额外的随机噪声，以匹配训练期间的分布：

缩放因子确保均值连续性，而用于补偿方差差异。考虑使用最近时间上采样的最简单情况并降低噪声的影响，我们推导出方程14为（详细推导见附录A.1）：

其中，

实验

1. 实验设置

我们在去噪扩散隐式模型（DDIM）和流匹配（flow matching）中都实现了我们的方法。由于大多数视频扩散模型都是基于预训练的图像模型构建的，因此我们的实验基于两个图像模型：MiniFlux和SD1.5。这两个模型分别在流匹配和去噪扩散隐式模型下进行训练。我们通过在视频数据上微调MiniFlux的所有参数，将其扩展为MiniFlux-vid，并采用AnimateDiff将SD1.5扩展为视频模型。在所有实验中，阶段数设置为3，并且每个阶段均匀划分。我们的实验在英伟达H100 GPU上进行。

数据集我们从Open-VID1M中选择大约个高质量的文本 - 视频对来构建我们的数据集。该数据集包含运动得分和美学得分均在前，或者至少有一个得分在前的视频。MiniFlux-vid和AnimateDiff的分辨率分别为384p和256x256。

基线模型我们将我们的方法与在普通扩散框架下训练的视频扩散模型进行比较。为了证明我们的方法不会导致性能下降，我们训练了两个基线模型：在普通流匹配和去噪扩散隐式模型框架下的MiniFlux-vid和AnimateDiff，不使用时间金字塔。我们在我们精心挑选的数据集上使用与我们的方法相同的超参数从头开始训练这些基线模型。为了证明我们的方法相对于现有方法的有效性，我们还在我们的数据集上从头开始训练了modelscope和OpenSora。

图4. 定性比较。在每对视频中，第一行展示了使用普通扩散训练的模型的结果，第二行展示了我们方法的结果。前两对视频由MiniFlux-vid生成，其余的由AnimateDiff生成。

评估我们从两个角度评估我们的模型：生成质量和效率。为了评估生成质量，我们采用VBench中的定量指标来比较我们的方法与现有模型的性能。对于效率，我们可视化收敛曲线以直观地展示训练效率。具体来说，为了评估模型在训练过程中的生成能力，我们遵循常见做法，使用来自MSRVTT的验证视频进行零样本生成评估。我们在训练过程中系统地计算弗雷歇视频距离（FVD）值，并展示FVD - GPU小时曲线以证明我们方法的训练效率。我们还报告平均推理时间以验证推理效率。

2. 定量结果

表1. 基线模型和我们方法的推理效率。所有模型的总去噪步数均设置为30。

表2展示了我们的方法与基线模型的定量比较。与现有方法相比，我们的模型以更高的总分取得了更好的结果。与普通扩散模型相比，我们的方法在大多数方面都有改进，这表明它在不影响性能的前提下提高了效率。这进一步表明，普通视频扩散模型在时间建模方面存在大量冗余，而我们的方法有效地消除了这些冗余。

图5显示，与普通扩散模型相比，我们的方法在训练中实现了和2.13倍的加速。这种加速主要源于两个因素：1) 噪声 - 数据配对：通过将噪声与数据对齐，我们降低了训练中的随机性。模型学习的是近乎确定性的常微分方程（ODE）路径，而不是多个相交ODE路径的期望。2) 更短的平均序列长度。由于注意力机制的计算复杂度与序列长度呈二次方关系，我们的方法平均所需的计算复杂度显著降低。例如，要生成长度为的视频，我们方法中注意力模块的平均计算成本减半，从普通扩散模型中的降至。如表1所示，这种优势也体现在更快的推理速度上。

图5. 普通扩散模型和我们的方法在(a) 去噪扩散隐式模型（DDIM）、(b) 流匹配上的收敛曲线。我们展示了两种方法在消耗不同GPU时长下的弗雷歇视频距离（FVD）。与普通方法相比，我们的方法实现了更高的训练效率。

图6. 推理策略的消融研究。我们的方法生成的视频平滑、质量高，而没有推理重加噪的基线模型生成的视频有明显闪烁。

图7. 数据 - 噪声对齐的消融研究。与基线模型相比，我们的方法可以生成更清晰的视频。

表2. 基线方法和我们方法的视频生成质量比较。

3. 定性结果

如图4所示，我们展示了我们的方法与普通视频扩散模型之间的定性比较。我们的方法生成的结果显示在第二列，基线方法的输出显示在第一列。显然，我们的方法能够生成语义准确性更高、动作幅度更大的视频。例如，在提示语 “一个男人在火星上说话” 下，基线方法生成的人物只是摇头而不说话，未能完全符合提示语。相比之下，我们的方法准确地生成了指定的动作，与给定提示语的匹配度更高。此外，对于AnimateDiff，基线方法生成的视频几乎是静止的，而我们的方法实现了幅度更自然合理的动作。

4. 消融实验

我们对两个关键设计进行了消融实验：数据 - 噪声对齐和再去噪推理策略。

数据 - 噪声对齐的消融实验为了证明数据 - 噪声对齐的有效性，我们设计了一个未进行对齐训练的基线方法。图7和表3展示了我们的方法与该变体的比较。我们的方法能够生成高质量且流畅的视频，而基线方法产生模糊的结果。这是因为，在未进行对齐的情况下，从公式9到公式10的近似会产生更大的误差。因此，通过公式10和公式11计算得到的和与真实值存在偏差，导致结果模糊。

表3. 数据噪声对齐消融实验。