作者:幸运的石头 | 来源:3DCV
在公众号「3D视觉工坊」后台,回复「原论文」即可获取论文pdf。
添加微信:dddvisiona,备注:2D视觉,拉你入群。文末附行业细分群。
限于篇幅,对本文的的深入思考与理解,我们发表在了「3D视觉从入门到精通」知识星球。

最近,生成式人工智能革命已经扩展到了视频领域。然而,目前最先进的视频模型在视觉质量和用户对生成内容的控制方面仍落后于图像模型。在本文中,我们提出了一种框架,利用文本到图像扩散模型的能力来实现文本驱动的视频编辑任务。具体地,给定一个源视频和一个目标文本提示,我们的方法生成一个高质量的视频,遵循目标文本,同时保留输入视频的空间布局和运动。我们的方法基于一个关键观察:通过强制扩散特征空间上的一致性,可以获得编辑后的视频的一致性。我们通过根据模型中可用的帧间对应关系显式传播扩散特征来实现这一点。因此,我们的框架不需要进