浙江大学提出V²Edit！视频与3D场景编辑的免训练革命！_基线方法可以是本文方法的变体方法吗-CSDN博客

本文链接：https://blog.csdn.net/DataSourceAI/article/details/146327383

🌐 社群导航

🔗 点击加入➡️【AIGC/LLM/MLLM/3D/自动驾驶】技术交流群

🔗 点击加入➡️【2-3月CCF投稿】交流群

最新论文解读系列

论文名：V²Edit: Versatile Video Diffusion Editor for Videos and 3D Scenes

论文链接：https://arxiv.org/pdf/2503.10634

开源代码：https://immortalco.github.io/V2Edit/

导读

继基于图像的扩散生成模型取得成功之后，视频扩散模型在计算机视觉领域迅速崭露头角。这些模型现在能够根据文本描述生成高分辨率、高保真的视频。与此同时，指令引导的视频编辑——通过简单的文本指令修改现有视频——已成为一个新兴的关注领域。使用高质量的初始视频可以通过有针对性的编辑高效地创建新的视频资源，而无需从头开始生成。

简介

本文介绍了编辑，这是一种用于指令引导的视频和3D场景编辑的新型免训练框架。为解决平衡原始内容保留与编辑任务完成这一关键挑战，我们的方法采用了一种渐进策略，将复杂的编辑任务分解为一系列更简单的子任务。每个子任务通过三个关键的协同机制进行控制：初始噪声、每个去噪步骤添加的噪声以及文本提示与视频内容之间的交叉注意力图。这确保了在有效应用所需编辑的同时，能稳健地保留原始视频元素。除了其原生的视频编辑能力，我们还通过“渲染 - 编辑 - 重建”过程将编辑扩展到3D场景编辑，即使对于涉及大量几何变化（如对象插入）的任务，也能实现高质量、3D一致的编辑。大量实验表明，我们的编辑在各种具有挑战性的视频编辑任务和复杂的3D场景编辑任务中都实现了高质量且成功的编辑，从而在这两个领域都达到了最先进的性能。

方法与模型

在 Edit中，我们利用预训练的视频扩散模型作为通用视频编辑的基础，无需在配对数据集上进行特定训练。如图2所示，我们的框架采用渐进式编辑过程，将复杂的编辑任务分解为一系列更简单的子任务。为了在确保高质量编辑的同时保留原始视频内容，我们实施了一种无需训练的保留控制机制，该机制系统地管理扩散过程的三个关键方面：（i）初始噪声，（ii）每个去噪步骤中添加的噪声，以及（iii）文本提示与视频内容之间的交叉注意力图。通过这种一致的保留控制策略且无需调整超参数，该方法确保在有效应用预期修改的同时，有力地保留视频的原始元素。

图2. 我们的编辑框架具有渐进式编辑的特点。给定一条编辑指令和原始视频，一个大型视觉语言模型（LVLM）[29]会为原始视频和编辑后的视频生成提示词。对这些提示词进行插值处理，以创建一系列子任务，这些子任务会在我们的框架中逐步执行。

1. 提示生成

我们利用大型视觉语言模型（LVLM）[29]将编辑指令转换为两个描述性提示：一个用于原始视频，另一个用于编辑后的视频。这至关重要，因为大多数文本到视频的扩散模型需要描述视频内容本身的提示。通过生成这些量身定制的提示，我们的框架确保底层扩散模型能够在保持原始视频内容的结构和完整性的同时，有效地执行指令引导的编辑。

2. 原始内容保留控制

为了在编辑过程中保留原始视频内容， Edit采用了三种互补的控制机制：（1）控制初始噪声以保留低频信息；（2）调节每个去噪步骤中添加的噪声以保留语义细节；（3）利用交叉注意力图确保文本提示与视频内容对齐。这些机制协同工作，在实现有效编辑的同时保持原始视频的完整性，确保在各种编辑任务中顺利推进。图3展示了我们的保留控制方法的可视化效果。

基本公式。我们使用具有个加噪步骤的扩散模型来生成诸如RGB或潜在表示等格式的视频，为了通用起见，将其称为“含噪视频”。加噪步骤表示为，去噪步骤表示为。每个去噪步骤都涉及一个去噪网络和一个噪声调度器。设表示第个加噪步骤后的视频，其中是原始视频，是纯高斯噪声。形式上，我们定义和（对于）。

初始噪声控制。为了在编辑过程中保留原始视频的整体布局，编辑控制扩散过程中的初始噪声。受SDEdit [27]的启发，我们不是从具有个去噪步骤的纯高斯噪声开始生成，而是将噪声添加限制在前个步骤，然后从这个受控噪声开始进行个去噪步骤。这种方法可以保留低频信息，如视频的结构和布局，同时允许高频细节被破坏和重新生成。

每步噪声控制。上述方法启发我们，扩散模型使用的噪声也携带语义信息。基于这一观察，编辑利用每个去噪步骤中添加的噪声来保留原始视频内容。具体来说，我们在初始的个添加噪声步骤中，利用DDPM逆过程[16]从原始视频中提取DDPM潜在变量，这些潜在变量是DDPM去噪过程中每个步骤要添加的噪声。这些潜在变量包含了对于维持视频完整性至关重要的丰富语义细节。通过在相应的去噪步骤中应用这些潜在变量，我们确保语义信息得到保留，同时不过度限制高频细节，从而实现有效且平滑的编辑。

然而，DDPM调度器在实际应用中效率不高。为了解决这个问题，我们探索了DDPM逆过程的内在特性，这涉及构建含噪视频并求解每个去噪步骤所需的精确噪声。通过将去噪函数定义为（适用于不需要随机噪声的调度器），我们将保留控制方法应用于更先进、更高效的调度器，如DDIM [37]和DPMSolver++ [25, 26]。这种新颖的适配方法使编辑能够受益于DDPM逆过程的语义保留能力，同时利用先进去噪调度器的高效率。

用于生成控制的交叉注意力图。为了进一步确保保留原始视频的语义内容，编辑在噪声预测模型中操纵交叉注意力图，以使编辑后场景的生成过程与原始场景保持一致。受提示到提示（prompt - to - prompt）[11]的注意力图替换策略的启发，我们的方法包括同时进行两次生成：，使用原始视频的提示词生成原始视频；以及，使用编辑后视频的提示词生成编辑后视频。通过同时控制这两次生成，我们可以保持原始内容和编辑后内容之间的一致语义对齐。

为解决直接存储和替换注意力图带来的高内存和高计算成本问题，我们采用了一种受Flash Attention [8]启发的快速且节省内存的方法。该技术使我们能够在去噪过程的每次交叉注意力计算中，同时计算和的注意力输出，从而无需单独存储交叉注意力图即可实时替换它们。通过进一步结合Flash Attention中的技术，我们甚至无需显式构建交叉注意力图，而是直接计算最终输出。因此，我们的方法将内存复杂度从二次方降低到常数级别，与显式存储和替换注意力图相比，速度提高了四倍。这种高效的实现方式确保了 Edit能够在渐进式编辑框架内无缝集成交叉注意力图控制，在不影响性能的前提下，实现高质量且语义一致的视频编辑。

控制机制之间的协同作用。虽然三种保留控制机制——初始噪声控制、中间噪声控制和交叉注意力图控制——可以独立应用，但它们的结合能显著提升编辑性能。通过在去噪步骤中定义一个区间，我们的框架使这三种控制机制能够在该区间内协同工作。在该区间之外，低频细节得以保留，高频纹理得到细化，从而确保内容保留和高质量编辑。

视频编辑流程如图3所示：首先，我们执行初始的加噪步骤，以获得含噪视频。然后，我们同时生成两个版本的视频，使用原始提示，使用编辑提示。在和之间的去噪步骤中，来自的去噪扩散概率模型（DDPM）潜在变量和交叉注意力图指导的生成。对于之前的去噪步骤，模型在没有额外指导的情况下自由细化视频纹理。

图3. 编辑保留控制集成了三种关键的协同方法，以在编辑过程中保留原始内容：（i）控制初始噪声（“”）；（ii）管理每个去噪步骤中添加的噪声（“DDPM潜在变量”）；（iii）利用文本提示词和视频内容之间的交叉注意力图。每次生成都会从前一个子任务和原始视频中获得关于保留的指导，以实现平滑的进展。

3. 基于渐进式的编辑过程

不同的编辑任务可能需要不同级别的保留控制。一个温和且简单的编辑任务在较低或较高级别的保留控制下都可能成功，但一个显著改变外观的更具挑战性的编辑任务在保留控制过于严格时可能会失败。为满足不同编辑任务对保留控制的不同要求， Edit采用了一种基于渐进式的策略，将一个复杂的编辑任务分解为一系列更简单的子任务。由于每个分解后的子任务都比较温和，并且易于在保留原始内容和完成编辑任务之间取得平衡，这种分解使我们能够在所有子任务中应用一致的保留控制策略，而无需进行特定任务的调整。

如图2和图3所示，在渐进过程中，对于每个子任务， Edit同时执行两个生成操作：，它使用原始提示重新生成当前子任务视频；以及，它使用编辑提示生成下一个子任务视频。的生成由从和原始视频生成（“”）中提取的交叉注意力图和去噪扩散概率模型（DDPM）潜变量引导，并使用混合系数。

通过使用这种双引导生成逐步完成每个子任务，编辑在各种场景下都能保持高质量且语义一致的编辑效果。这种协同方法有效地平衡了原始内容的保留和编辑指令的执行，确保从一个子任务到下一个子任务的顺利推进，而无需设计不同级别的复杂控制机制。

4. 高效稳定的3D场景编辑

除了其原生的视频编辑能力外，编辑通过引入简单的渲染 - 编辑 - 重建（RER）过程无缝扩展到场景编辑：沿着固定的相机轨迹渲染原始场景的视频，使用编辑进行视频编辑，然后从编辑后的视频中重建并重新渲染场景。

为了确保3D一致性，我们修改了渐进式编辑框架，以便在获得每个子任务的编辑视频后，我们可以将其重建为，并将其重新渲染为视频用于下一个子任务。这种修改利用了渲染视频的时间平滑性和重建的一致性，确保编辑后的视频具有较强的3D一致性。与之前需要迭代更新数据集和额外训练的3D编辑方法不同，我们的方法保持稳定且高效，能够以最少的扩散生成实现高质量的编辑。此外，我们编辑后的视频的时间一致性允许进行显著的几何变化，例如对象插入，而由于之前逐视图编辑结果不一致，这些操作具有挑战性。

实验与结果

1. 实验设置

编辑设置。我们使用CogVideoX - 5b [46]作为底层视频扩散模型，它是一个基于扩散变压器（DiT）的文本到视频模型，并支持类似SORA [24]的长描述作为输入提示。我们使用GPT - 4o [29]作为大视觉语言模型（LVLM）为底层的CogVideoX生成提示。对于我们渐进式框架中的子任务分解，我们允许每个编辑任务最多有六个（6）个子任务。对于3D场景编辑任务，我们的编辑独立于特定的场景表示。因此，我们从NeRFStudio [39]中选择SplactFacto或NeRFacto作为我们的场景表示。

视频编辑任务。与先前的工作[35]一致，我们使用DAVIS数据集中的视频作为源视频。用于评估的编辑任务由GPT - 4o根据原始视频输入提出。

视频编辑基线方法。我们将我们的编辑方法与视频编辑基线方法进行比较，这些基线方法大致可分为两类：(1) 基于图像的方法，依赖底层图像生成模型，包括用于单目场景的Slicedit [7]和Instruct 4D - to - 4D [28]；(2) 基于视频的方法，利用底层视频生成模型，包括CogVideoX - V2V [46]、VideoShop [9]、StableV2V [23]、AnyV2V [20]、采用逐帧编辑和整体细化的BIVDiff [35]以及CSD [18]。一些基于图像的方法需要以编辑后的第一帧作为引导，我们始终使用Instruct - Pix2Pix [3]来生成这一帧。

3D场景编辑任务。与先前的场景编辑方法一致，我们主要使用Instruct - NeRF2NeRF (IN2N) [10]数据集中的场景进行对比评估。我们还使用了NeRFStudio [39]中的几个室外场景作为更具挑战性的任务。对于场景的相机轨迹，我们要么使用现有的轨迹（对于官方提供轨迹的IN2N数据集），要么手动绘制一条轨迹（对于其他场景）。

3D场景编辑基线方法。我们将我们的编辑方法与最先进的传统基于图像的3D场景编辑方法进行比较，包括Instruct - NeRF2NeRF (IN2N) [10]、Efficient - NeRF2NeRF [38]和V2Edit [?]。在补充材料中，我们还比较了另一种基线方法：将RER策略（第3.4节）应用于上述视频编辑基线方法。

编辑方法的消融实验变体。在主论文中，我们对以下关键的编辑方法变体进行了消融实验：(1) CogVideoX - V2V，它也使用CogVideoX [46]作为底层视频扩散模型；(2) 无渐进式编辑（NP），该方法仅在编辑时应用我们的原始内容保留控制，而不进行渐进式编辑。由于篇幅有限，我们在补充材料中提供了更多变体的消融实验结果。

评估指标。视频编辑任务的评估涉及多个方面，包括整体视觉质量、原始视频内容的保留以及编辑任务的完成情况。使用传统方法对这些方面进行评估具有挑战性。因此，与[?]一致，我们使用GPT - 4o [29]进行评估，这可以看作是VQAScore [22]的蒙特卡罗模拟。我们向GPT提供每个方面的要求、编辑指令以及原始视频和编辑后视频的逐帧内容，然后要求GPT为每个方面给出1到100的分数。为了比较我们的方法和不同基线方法的多个视频，我们同时将所有这些视频提供给GPT，并要求GPT一起对它们进行评分，以确保评分规则的一致性。为了避免随机性，我们使用20次独立评估的平均值作为最终结果。利用GPT的视觉 - 语言推理能力，该指标可以量化编辑后视频的不同方面。我们还提供了用户研究以及基于[10]的CLIP [33]分数：CLIP文本 - 图像方向相似度（CTIDS）和CLIP方向一致性（CDC）。

2. 实验结果

视频编辑。在DAVIS [30]数据集上的视频编辑可视化结果如图4所示，更多结果可在我们的项目网站上查看。我们的编辑方法在各种具有挑战性的任务中始终能成功进行编辑并产生高保真度的结果，例如，为摩托车手添加一个火环供其穿过，以及将一个快速移动的人变成蝙蝠侠；同时能成功保留无关部分，例如在“蝙蝠侠”任务中保留网球场的墙壁和布局以及网球运动员的动作，在“猪”任务中保留农场中的物体，在“天鹅”任务中保留河流。相反，每个基线方法要么无法执行编辑，要么无法保留原始场景中的无关部分——尤其是原始的姿态和动作。值得注意的是，基线方法CogVideoX - V2V是一种官方方法，它在CogVideoX上应用了SDEdit [27]，可以看作是我们方法的一个变体。该基线方法生成的视频外观良好，但无法保留原始场景的大部分信息。这验证了我们的保留控制方法的重要性。这表明，并非是我们所使用的底层CogVideoX的强大能力，而是我们新颖的原始内容保留和递进式流程，才使得我们获得了高质量的编辑结果。

图4. 我们的编辑在各种视频编辑任务中取得了成功的编辑结果，整体外观优越，同时很好地保留了原始内容。基线方法要么生成外观奇怪且有伪影的结果，要么无法保留与编辑无关的区域。值得注意的是，CogVideoX - V2V [46]是CogVideoX的官方视频到视频编辑模型，生成的结果外观不错，但无法保留原始内容，这表明我们的编辑的关键在于我们新颖的渐进式框架和保留控制机制，而不是强大的底层CogVideoX模型。更多结果请访问我们的项目网站。

图5. 我们的编辑在IN2N [10]数据集的人脸场景中的各种具有挑战性的3D场景编辑任务中取得了高质量的编辑结果，具有清晰的纹理和几何结构、鲜艳的颜色以及出色的原始内容保留效果。值得注意的是，我们的编辑成功地执行了像对象插入这样具有显著几何变化的编辑操作。相反，基线方法要么无法执行编辑，要么无法保留原始场景中的内容，例如背景颜色、人物外观等。

图6. 我们的编辑方法在各种室内和室外场景中均能实现高质量的编辑效果，同时在所有任务中始终能兼顾编辑任务的完成和原始内容的保留。而基线方法要么无法完成编辑，要么在编辑时修改了许多不相关的区域，且无法令人满意地保留原始内容。更多结果请访问我们的项目网站。

3D场景编辑。场景编辑的结果如图5和图6所示，更多结果可在我们的项目网站上查看。如图5所示，我们的编辑方法在包含显著几何变化的具有挑战性的编辑任务中取得了成功，具有清晰的外观和合理的几何结构，尤其是在“幼狮”编辑任务中。例如，物体插入任务，而所有基线方法在执行这些任务时大多失败——要么无法满足编辑要求，要么完全改变了原始场景的外观，或者两者皆有。除了正脸场景，我们的编辑方法在图6中的室内或室外场景中，面对多样化的编辑指令也表现出色，既能很好地完成编辑指令，又能保留原始场景。值得注意的是，通过我们在3.2节中基于自实现的基于闪存注意力机制[8]的加速方法，在递进式框架中，每个子任务编辑一个72帧的视频仅需10分钟。因此，一个最多包含六个递进式子任务的编辑任务仅需大约一到两个小时即可完成，实现了与简单基线方法相当的效率，但产生的结果明显更优。

定量评估。我们对几个具有代表性的编辑任务进行了定量评估，结果如表1所示，其中包括一项涉及43名参与者的用户研究，以评估主观质量。我们的编辑方法在视频和3D场景编辑的所有指标上始终优于所有基线方法。具体而言，编辑方法成功地平衡了原始内容保留（由“CDC”指标衡量，该指标量化了原始场景和编辑后场景之间相邻帧的相似度）和编辑任务完成度（由基于GPT的评估和用户研究结果证明）。这些发现确立了编辑方法在视频和3D场景编辑领域的先进框架地位。

表1. 定量评估表明，我们的编辑在视频和3D场景编辑任务中，在所有指标下始终优于所有基线方法。

消融研究。如图4所示，基线方法CogVideoX - V2V在各种编辑任务中生成了高质量的视频，但始终无法保留原始视频中的无关内容。该基线方法实际上代表了我们的编辑方法仅采用初始噪声控制的一个变体。这些结果表明，仅依靠强大的视频扩散模型而没有有效的内容保留机制，不足以实现高质量的编辑，凸显了我们的保留控制策略的必要性。此外，如图7所示，在没有递进式框架的情况下直接应用我们的内容保留机制，在复杂任务（如添加时钟）中会失败。相比之下，当采用基于递进式的编辑策略时，编辑方法成功地构建并细化了时钟，取得了高质量的结果。值得注意的是，时钟指针在所有视角下都保持一致，显示出出色的3D一致性。这些实验验证了我们的内容保留机制和递进式框架都是必不可少的，它们不仅确保了内容保留，还实现了编辑任务的完成。更多消融研究结果见补充材料。

图7. 对我们的渐进式框架进行的消融实验表明，渐进式编辑对于获得高质量的编辑结果至关重要。值得注意的是，渐进式编辑过程展示了一个逐步编辑的过程，最终在墙上构建出一个时钟，甚至时钟指针在3D空间中也保持一致。

总结

在本文中，我们介绍了 Edit，这是一个新颖且通用的框架，用于指令引导的视频和3D场景编辑。我们的方法通过将复杂任务逐步分解为更简单的子任务，并由统一的保留控制机制进行管理，有效地平衡了原始内容的保留和编辑指令的执行。对于视频编辑， Edit在处理涉及快速移动的相机轨迹、复杂运动和显著时间变化的具有挑战性的场景方面表现出色，确保编辑过程流畅且一致。对于3D场景编辑，我们的框架支持具有大量几何变化的具有挑战性的编辑任务，同时保持较高的3D一致性并充分保留原始场景内容。大量实验表明， Edit在视频和3D场景编辑方面均达到了当前的先进水平。我们希望 Edit为未来使用视频扩散模型进行视频和3D场景编辑的发展铺平道路。