🌐 社群导航
🔗 点击加入➡️【AIGC/LLM/MLLM/3D/自动驾驶】 技术交流群
数源AI 最新论文解读系列
论文名:I2V3D: Controllable image-to-video generation with 3D guidance
论文链接:https://arxiv.org/pdf/2503.09733
开源代码:https://bestzzhang.github.io/I2V3D
导读
最近图像到视频生成模型的进展显著提高了生成具有动态运动的高质量视频的能力。然而,这些方法在生成过程中提供精确可控性方面仍然面临重大挑战。例如,稳定视频扩散(SVD)将生成视频的第一帧限制为给定的输入图像,用户无法控制后续帧。虽然随后基于文本的图像到视频方法允许使用文本提示进行粗略的运动控制,但它们也无法实现对物体和相机运动的精确控制。
简介
我们提出了I2V3D,这是一个新颖的框架,利用3D几何引导和先进生成模型的优势,将静态图像精确地 动画化为动态视频。我们的方法将计算机图形流水线的精确性(能够精确控制相机运动、物体旋转和角色动画等元素)与生成式 的视觉保真度相结合,从粗略渲染的输入中生成高质量的视频。为了支持从任意初始点开始的动画和扩展序列,我们采用了由 几何引导的两阶段生成过程:1) 引导的关键帧生成,其中定制的图像扩散模型优化渲染的关键帧,以确保一致性和质量;2) 3D引导的视频插值,这是一种无需训练的方法,使用双向引导在关键帧之间生成平滑、高质量的视频帧。实验结果表明,我们的框架通过将3D几何与生成模型相协调,能够从单张输入图像中生成可控的高质量动画。
方法与模型
给定一张输入图像,我们的目标是从任意期望的点开始生成动画视频,该过程由用户指定的精确3D控制信号引导。如图2所示,我们提出的流程首先对整个3D场景进行重建,使用传统计算机图形(CG)流程创建动画,并根据信号(如深度和粗渲染输出)生成高质量视频。具体而言,我们首先提取前景对象和背景场景的3D网格。接下来,我们利用广泛使用的3D引擎Blender来编排动画并渲染视频。最后,我们采用两阶段视频生成过程:先进行3D引导的关键帧生成,然后在关键帧之间进行3D引导的插值。这种方法有两个关键优点。首先,它为用户提供了定义任意起始帧的灵活性,消除了与输入图像绑定的限制。其次,它可以防止误差累积伪影,使得生成的视频能够超出视频扩散模型通常支持的时间窗口,确保视频既高质量又具有时间一致性。
图2. 我们的框架由三部分组成。首先,我们从单张输入图像中提取网格,并使用3D引擎创建和预览粗动画。接下来,我们使用针对输入图像定制的图像扩散模型,通过3D引导过程生成关键帧,该过程结合了多视图增强和扩展注意力机制。最后,我们在生成的关键帧之间进行3D引导的插值,以生成高质量、连贯的视频。
1. 3D重建与渲染
在这个阶段,我们首先将图像提升为场景,并在引擎中设置相机和动画。为了创建解耦的网格,我们使用SegAnything [23]生成的对象掩码分离前景对象,并使用SDXL图像修复 [35]对对象区域进行修复,以获得完整且干净的背景。对于前景网格,我们使用InstantMesh [58],这是一种稀疏视图前馈方法,它会生成前景的六张新视图图像,这些图像随后会在定制阶段被复用。对于背景,我们首先生成高质量的新视图,然后应用多视图立体(MVS)重建来获取3D网格。具体来说,我们采用最先进的相机姿态条件视频生成模型ViewCrafter [65],通过设置预定义的相机轨迹(如左右旋转或上下移动)来生成新视图。然后使用密集立体模型Dust3r [49]从这些新视图图像中的1 - 4张重建背景网格。
一旦生成了网格,就将它们导入引擎以创建动画。用户可以利用熟悉的3D内容创作工作流程,包括对对象进行绑定(设计用于移动的骨骼结构)、定义相机路径以及为角色设置动画。对于绑定,用户可以手动设计骨骼框架,也可以使用Mixamo等自动绑定和动画工具。此外,我们提供了一个自定义的Blender脚本,用于自动生成相机轨迹。该脚本会遍历多视图立体(MVS)重建过程中选择的视图,简化了新手用户创建与重建的场景对齐的动画的过程。最后,对场景进行烘焙纹理和深度视频渲染,提供3D几何信号以指导后续的视频生成。
2. 3D引导的关键帧生成
在获取几何信号后,我们的目标是生成连贯的关键帧,这些关键帧要保留渲染帧的3D几何结构,同时保持输入图像的视觉保真度。为了保留输入图像的外观,我们首先使用低秩自适应(LoRA) [17]对稳定扩散(SD)模型 [38]进行定制。然而,在单张图像上使用LoRA对SD进行微调往往会过度拟合给定视图,限制了其在不同视图上的泛化能力。为了缓解这个问题,我们使用多视图图像来定制LoRA,以提高泛化能力。为了确保生成图像的几何结构与渲染帧对齐,我们使用深度图和粗渲染帧作为控制条件。此外,为了增强生成关键帧之间的时间一致性,我们引入了扩展注意力机制,引入额外的跨帧交互以提高连贯性。
2.1. 使用多视图图像进行LoRA定制
LoRA(低秩自适应,Low-Rank Adaptation)是一种高效的模型适配技术,它冻结预训练权重矩阵 并整合额外的可训练矩阵 ,这些矩阵被分解为两个低秩矩阵 和 ,显著减少了可训练参数的数量。在我们的实现中,我们将 LoRA 应用于稳定扩散模型(SD)中自注意力和交叉注意力模块的注意力层和前馈层。
在每个训练步骤中,我们将输入图像与从 InstantMesh [58] 生成的多个新视角图像中随机选择的前景对象增强图像一起使用。为了便于学习,我们创建简单的提示词,例如“在 {环境} 中的 {对象}”来描述输入图像,以及“一个 {对象}”来描述所有增强图像中的前景对象。训练损失定义如下:
其中 和 分别是输入图像和增强图像在时间步 的噪声潜变量。类似地, 和 分别是输入图像和前景对象的文本提示词。 表示增强图像中前景对象的掩码, 表示添加的噪声, 指的是去噪网络。 是一个控制增强损失权重的超参数。
2.2. 用于生成控制的几何引导
遵循先前的研究 [62],我们使用深度控制和渲染特征控制来保留渲染关键帧的几何信息。首先,我们使用 DDIM 反演 [43] 对渲染关键帧进行反演,以获得反演后的潜变量 。然后,这些 潜变量被用作关键帧生成的初始噪声。在每个去噪步骤中,我们通过 ControlNet [67] 应用深度控制,并注入在反演过程中提取的自注意力特征 (由 和 组成)和来自残差块的卷积特征 。深度控制提供了粗略的 3D 几何信息,而渲染特征( 和卷积特征)进一步补充了附近平面的布局和细粒度几何结构,如先前的工作 [24] 所示。此外,我们对不可见区域的渲染特征注入进行掩码处理,以解决重建背景网格中的不完美问题。
2.3. 用于增强一致性的扩展注意力机制
为了增强关键帧之间的时间一致性,我们进一步利用先前风格对齐生成 [15] 和文本到视频(T2V)编辑工作 中提出的扩展注意力机制。该机制修改了自注意力层,使得每一帧不仅关注自身的特征,还关注其他关键帧的特征。具体来说,扩展注意力的计算如下:
这里, 表示查询特征,而 和 分别表示所有帧的拼接键特征和值特征。函数 表示 Softmax 操作。通过这种方法捕捉空间和时间上下文,该方法促进了关键帧之间更好的交互,促使它们共享一致的全局外观。
3. 3D 引导的视频插值
为了从关键帧生成一致且高质量的视频,我们采用了一种图像到视频的插值方法,以确保时间连贯性。此外,应用几何引导来保持与渲染视频的运动对齐。
受 [11] 的启发,我们采用双轨迹去噪方法来利用双向上下文信息。对于每个去噪步骤,我们将潜变量通过两条并行的去噪轨迹。一条是前向去噪轨迹,以第一帧为条件;另一条是时间反转去噪轨迹,其中潜变量沿时间维度反转并以最后一帧为条件。去噪后,前向和时间反转轨迹的输出使用加权平均进行融合,权重与第一帧和最后一帧之间的距离成比例。
为了提高与渲染视频几何形状的对齐度,我们在插值过程中应用了类似的几何引导。具体来说,我们使用了社区发布的深度控制网络(ControlNet)[1],并辅以渲染特征控制。首先,我们使用去噪扩散模型(EDM)[21]对渲染视频进行逆推,以获得初始潜在变量。在去噪过程中,我们使用渲染深度控制,并将卷积和自注意力特征替换为逆推过程中获得的特征。这些步骤确保插值视频在保持时间一致性的同时,能更好地与渲染视频的几何形状对齐。
实验与结果
1. 实现细节
为了定制输入图像,我们使用低秩自适应(LoRA)秩为32对稳定扩散XL(SDXL)模型[35]进行500步的微调,学习率设置为1e - 4,增强权重设置为1.0。对于3D引导的关键帧生成和视频插值中的渲染特征控制,我们使用自注意力特征和卷积特征。对于使用我们定制模型的关键帧生成,我们从所有上采样块注入这些特征,并设置和。对于使用预训练的单视图视频扩散(SVD)模型[2]的视频插值,我们遵循之前无训练方法[24,47],使用第4 - 11层的自注意力(sa)特征和第4层的卷积(conv)特征。在这里,我们将和设置为0.0。图像和视频的分辨率均为。在3090Ti GPU上,生成一个关键帧大约需要20秒,生成16个视频帧大约需要310秒。
2. 实验设置
2.1. 基线方法和数据集
我们将我们的方法与ISculpting [62]在类人角色和非类人对象上进行了比较。此外,我们在每个类别中还与另外两种方法进行了比较:1)对于类人角色,我们将我们的方法与两种骨骼驱动方法进行评估:AnimateAnyone [18]和MagicPose [6]。为了使用这些方法,我们使用DwPose [61]从渲染视频中提取骨骼。然后将这些骨骼输入到AnimateAnyone和MagicPose中,它们根据骨骼数据为输入图像生成动画。2)对于非类人对象,我们将我们的方法与两种支持相机和对象运动控制的方法进行比较。在DragAnything [55]中,使用协同跟踪(Co - Track)[20]检测像素轨迹。通过随机选择一个前景轨迹来控制对象的运动,选择四个背景轨迹来控制相机的运动,模拟人类交互。在MotionBooth [54]中,从前景对象掩码中提取边界框,同时通过平均背景的运动向量来计算相机沿和方向的运动。为了评估我们的方法与基线方法的性能,我们创建了30个动画,包括15个类人角色和15个非类人对象。每个动画至少由61帧组成(对于16帧的扩散模型,共4批),这是我们评估中使用的视频长度。
2.2. 评估指标
我们从三个方面评估结果。为了衡量时间一致性,我们按照先前的方法[9],计算连续生成帧之间的CLIP相似度[37]。对于视觉相似度,我们使用[39]中提出的CLIP - I分数,该分数计算生成帧与输入图像的CLIP图像嵌入之间的余弦相似度。最后,为了评估生成视频和渲染视频之间的对齐度,我们采用SSIM [51]和D - RMSE [62]指标。D - RMSE衡量渲染帧的估计深度与每种方法生成的帧之间的均方根误差(RMSE),我们使用DepthAnything [59]作为深度估计器。
3. 定性和定量比较
图3将我们的方法与几个基线方法进行了比较。对于类人视频,MagicPose [6]和AnimateAnyone [18]难以准确遵循参考姿势或保留外观,因为它们的训练数据集主要以面部和上半身为主,而ISculpting [62]会产生闪烁的帧。此外,这些方法都无法处理相机移动(例如,尽管相机移动,但白色圆圈突出显示的框保持静止)。对于非类人对象,MotionBooth [54]过拟合,导致视频几乎静止,而DragAnything [55]仅限于二维运动并累积颜色误差。ISculpting [62]在外观上再次表现出不一致性。相比之下,我们的方法成功地根据参考运动对类人角色和非类人对象进行动画处理,保留了原始外观,并实现了卓越的时间一致性。
图3. 与基线方法的定性比较:(第一组)类人角色,(第二组)非人类对象。对于类人角色,MagicPose [6]在姿态控制方面存在困难(蓝色),AnimateAnyone [18]无法保留外观(红色)。对于非人类对象,MotionBooth [54]出现过拟合现象(蓝色),DragAnything [55]出现误差累积(红色)。ISculpting [62]在两类对象中均表现出帧不一致性(黄色)。我们的方法通过遵循粗略渲染的几何引导,优于这些方法,并解决了它们的伪影问题(粉色)。
除了定性改进之外,我们的方法在定量评估中也表现出色。如表1所示,它在时间一致性(0.994和0.991)和结构相似度(D - RMSE为0.102和0.117;SSIM为0.757和0.735)方面优于基线方法。此外,它与输入图像的视觉相似度(约0.90)与ISculpting [62]相当,ISculpting [62]在去噪过程中直接融合输入图像背景。这些结果证明了我们的方法能够生成与输入图像和渲染视频都紧密对齐的时间一致的动画。除了定量评估之外,我们还进行了用户研究以评估我们方法的有效性,相关内容包含在我们的补充材料A中。
4. 消融实验
多视图定制消融实验。在关键帧生成之前,我们的方法使用前景对象的多视图图像对图像扩散模型进行定制,以进行训练增强。如图4第三行所示
图4. 多视图图像增强的LoRA定制消融实验。红色框突出显示了对正视图的过拟合情况。
图5. 用于增强一致性的扩展注意力消融实验。红色框突出显示了单个生成帧之间的不一致性。
当对象旋转到背面时,仅在单个输入图像上定制LoRA会过拟合,只生成正视图,失去了对各种未见视图的泛化能力。相比之下,我们的多视图定制有效地从不同角度捕捉对象的外观,并且泛化能力更好。
扩展注意力消融实验。如第3.2.3节所述,我们利用扩展注意力在关键帧之间共享全局外观信息。单独生成帧通常会导致不一致性,如图5第三行中的不完整外壳和缺失的珍珠。相比之下,我们的方法通过使用扩展注意力联合生成关键帧来增强一致性。
3D引导插值消融实验。如第3.2.2节所述,ControlNet[67]直接捕捉3D几何信息,而渲染特征增强布局和细粒度结构。如图6第三行所示,没有任何引导的插值无法生成有意义的内容。当仅应用渲染特征控制而不进行深度控制时,模型缺乏直接的几何控制,如红色框突出显示的熊猫手所示。相反,没有渲染特征控制时,对象无法准确捕捉同一平面内的详细特征,如橙色框突出显示的熊猫眼睛。相比之下,我们的方法结合了深度控制和渲染特征控制,与渲染视频实现了更好的对齐。除了这些消融实验之外,更多消融实验包含在我们的补充材料B中。
图6. 3D引导视频插值消融实验。
结论
在本文中,我们针对从静态图像进行精确且可控的视频生成这一长期挑战提出了一种新颖的解决方案。通过集成建模工具和先进的生成模型,我们的框架架起了传统计算机图形学与现代基于扩散的合成方法之间的桥梁,使得在图像到视频的生成过程中能够实现精确的3D控制。我们提出的框架可以实现高质量、时间上一致的动画,同时保持对3D空间中物体和相机移动的控制。实验结果验证了我们方法的有效性,凸显了其在广泛场景中的普遍适用性,从物体的移动和旋转、角色动画,到视频生成中的场景编辑或合成。