以色列魏茨曼科学研究所最新发布!TokenFlow:一致的扩散特征用于一致的视频编辑...

本文提出了一种名为TokenFlow的方法,解决了使用文本到图像扩散模型进行视频编辑时的时间一致性问题。通过强制扩散特征在帧之间保持一致,TokenFlow能够在保留输入视频运动和布局的同时,根据文本提示生成高质量的编辑视频。该方法无需额外训练或微调,适用于多种编辑任务,实现在复杂运动中的先进编辑效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

作者:幸运的石头  | 来源:3DCV

 

在公众号「3D视觉工坊」后台,回复「原论文」即可获取论文pdf。

添加微信:dddvisiona,备注:2D视觉,拉你入群。文末附行业细分群。

限于篇幅,对本文的的深入思考与理解,我们发表在了「3D视觉从入门到精通」知识星球

29e2bce5facf8819f6ea1e68576e03d6.png

最近,生成式人工智能革命已经扩展到了视频领域。然而,目前最先进的视频模型在视觉质量和用户对生成内容的控制方面仍落后于图像模型。在本文中,我们提出了一种框架,利用文本到图像扩散模型的能力来实现文本驱动的视频编辑任务。具体地,给定一个源视频和一个目标文本提示,我们的方法生成一个高质量的视频,遵循目标文本,同时保留输入视频的空间布局和运动。我们的方法基于一个关键观察:通过强制扩散特征空间上的一致性,可以获得编辑后的视频的一致性。我们通过根据模型中可用的帧间对应关系显式传播扩散特征来实现这一点。因此,我们的框架不需要进

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

3D视觉工坊

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值