微软提出DiagD!10倍加速+高保真!自回归视频生成的闪电解码!

🌐 社群导航

🔗点击加入➡️【AIGC/LLM/MLLM/3D/自动驾驶】 技术交流群

🔗点击加入➡️【2-3月CCF投稿】交流群

最新论文解读系列

论文名:Fast Autoregressive Video Generation with Diagonal Decoding

论文链接:https://arxiv.org/pdf/2503.14070

开源代码:aka.ms/diagd

导读

近年来,视频生成模型在基于扩散和自回归的方法中都取得了显著的性能提升。这些模型在从原始视频中学习基础知识并生成高保真、可控的视频输出方面表现出了令人印象深刻的能力。因此,视频生成模型也被应用于人工智能的各个领域,如世界建模和具身人工智能,这表明它们有潜力作为现实世界的数字孪生。

简介

自回归Transformer模型在视频生成方面表现出色,但它们逐令牌的顺序解码过程成为主要瓶颈,特别是对于由数万个令牌表示的长视频而言。在本文中,我们提出了对角解码(DiagD),这是一种针对自回归预训练模型的免训练推理加速算法,它利用了视频中的时空相关性。我们的方法沿着时空令牌网格中的对角路径生成令牌,实现了每帧内的并行解码以及连续帧之间的部分重叠解码。所提出的算法具有通用性,适用于各种生成模型和任务,同时能够灵活控制推理速度和视觉质量之间的权衡。此外,我们提出了一种经济高效的微调策略,使模型的注意力模式与我们的解码顺序相匹配,进一步缩小了小规模模型在训练和推理之间的差距。在多个自回归视频生成模型和数据集上的实验表明,与简单的顺序解码相比,DiagD的加速比高达,同时保持了相当的视觉保真度。

方法与模型

1. 背景

在本节中,我们介绍所提出的对角解码方法。我们首先概述任务。给定一个由一系列帧组成的原始视频,使用离散变分自编码器(VAE)将这些帧编码为一系列离散令牌:

其中表示帧数,表示表示每一帧所需的令牌数,表示编码后令牌的总数。自回归Transformer处理这个序列,并通过下一令牌预测学习对视频的空间和时间动态进行建模。训练目标是最大化每个令牌的联合概率,即模型根据所有先前生成的令牌预测当前令牌:

其中  表示由  参数化的Transformer模型。在推理过程中,该模型通过下一个标记预测依次生成标记,一旦序列被重新整形为二维结构,这与光栅扫描顺序相同。最后,离散变分自编码器(VAE)的解码器将预测的标记重构为RGB空间中的视频。

2. 对角解码

图2. 所提出的对角解码算法在和情况下的示意图。在空间上,每一帧内沿同一对角线的令牌并行生成。在时间上,我们的方法在完成当前帧之前先生成后续帧的左上角令牌。

我们方法的灵感来源于对视频中连续帧的直观观察,这些观察可以总结为两个关键见解。如图2所示,第一个见解是,图像块与其空间相邻块的相关性比与序列相邻块的相关性更强。例如,每行的第一个图像块与前一行的第一个图像块的相关性比与同一行的最后一个图像块的相关性更强,尽管后者是其序列上的前一个块。其次,由于视频的时间冗余性,连续帧中占据相似相对位置的图像块很可能彼此相似。我们在实验中的图4中通过实证验证了这些观察结果。因此,我们发现顺序自回归生成不仅违背直觉,而且效率低下,于是我们提出利用这些空间和时间相关性来加速生成过程。

具体来说,我们提出了对角解码算法,这是一种迭代算法,它沿着时空标记网格中的对角路径生成标记。在空间上,在每一帧内,沿着同一条对角线的标记是并行生成的,利用了相邻图像块之间的强局部依赖性。在时间上,如图2所示,通过将帧堆叠在一起,我们的方法在当前帧完成之前就生成下一帧的左上角标记,因为这些标记不太可能依赖于尚未生成的右下角标记。

形式上,设  和  分别表示一帧的高度和宽度,设  表示视频中第  帧的第  行和第  列的图像块对应的标记。我们引入两个超参数来定义我们的算法。参数  表示在生成当前标记时前一行中可用的现有空间相邻标记的数量。换句话说,在满足  的所有标记都生成之后,才生成 。然后我们可以计算生成一帧中所有标记的迭代次数:

与需要  步的标准下一个标记预测相比,空间对角解码的加速比为:

从时间方面来看,我们引入时间延迟  来表示在开始生成下一帧之前必须在前一帧中生成的对角线条数。 的取值范围是 ,其中  表示前一帧的第一个标记生成后立即开始生成下一帧的极端情况, 对应于不利用时间级加速的情况。结合空间和时间对角解码,生成  帧中所有标记的迭代次数可以表示为:

如图2所示,在我们的大多数实验中,我们设置 、 和  来平衡生成质量和速度,同时在统一的对角解码框架内自然地协调空间和时间加速。与下一个标记预测相比,总的加速比为:

公式(4)和(6)的推导过程见附录。这表明加速大致与视频分辨率的宽度成正比,相对于标准自回归方法,显著减少了解码迭代次数。我们在实验中对两个超参数  和  进行了分析。

讨论 两个超参数  和  灵活地控制了推理速度和生成质量之间的权衡,增强了我们方法的通用性。对于纯视频生成模型,如Cosmos [1],可以同时启用空间和时间加速以实现最高的推理速度。另一方面,对于具有多模态输出的模型(例如,WHAM [17],它在游戏中生成配对的图像和动作),由于时间加速不适用,设置  可以使模型仅利用空间对角解码。这种适应性使我们的框架适用于广泛的生成模型和任务。

我们的仅空间对角解码变体与文本到图像生成的解码算法ZipAR [13]有相似的见解,但引入了一项关键创新:即使对于仅空间算法,也能利用各帧之间的时间冗余来提高效率。具体而言,实现对角解码会引入训练 - 推理差距,因为在训练期间,每行的第一个标记依赖于前一行的最后一个生成标记,而在推理期间不存在这种依赖关系。先前的方法使用前一行的最后一个标记作为生成标记的前导标记。相比之下,我们的方法通过使用前一帧中相同位置的标记来利用时间信息,这提供了额外的上下文并能够进行更准确的预测。因此,虽然ZipAR需要较大的来保持视觉质量,但我们的仅空间对角解码在不影响视觉保真度的情况下实现了更高的加速(例如,在大规模模型上达到,在较小模型上达到2倍)。

3. 微调策略

对于容量有限的小规模模型,上述讨论的训练 - 推理差距可能会导致性能下降。为了缓解这一问题,我们提出了两种解决方案。首先,如3.2节所述,可以调整超参数和以平衡视觉质量和生成速度。如实验所示,仅将从1增加到2就能在保持快速推理的同时显著提高视觉质量。

其次,我们引入了一种经济高效的微调策略,用与我们的对角解码算法对齐的掩码替换标准的因果注意力掩码。在实验中,我们观察到仅进行步的微调就能显著减少性能下降,这使得该方法既实用又高效。

实验与结果

1. 设置

1.1. 基线模型

我们将生成纯视频和多模态输出的模型作为基线模型,分别验证具有时间和空间加速的对角解码的性能。为了研究模型规模与对角解码(DiagD)性能之间的关系,我们还从头开始训练自回归模型。

宇宙模型(Cosmos)[1]是一个集成了多个预训练模型的世界基础模型集合。我们使用已发布的自回归模型,这些模型配备了一个离散视频分词器,该分词器在时间上提供的压缩率,在空间上提供的压缩率。因此,对于原始分辨率为的8帧视频,它被编码为大小为的潜在离散标记,即按照我们的符号表示为和。在宇宙模型上的实验展示了对角解码在具有时间压缩的表示上的通用能力。

WHAM世界与人类行动模型(The World and Human Action Model,WHAM)[17]是最近提出的一种在游戏环境中最先进的自回归生成模型,它能够根据用户的指令生成准确且连贯的游戏场景。与仅生成视频的Cosmos不同,WHAM将图像和动作的交错串联作为输入和输出,以接收控制指令并生成相应结果。因此,WHAM仅使用具有空间压缩的图像分词器,该分词器将具有的原始游戏场景转换为个标记,结果为和。考虑到只有在生成上一个游戏场景后用户才会给出动作指令,我们在WHAM上对具有空间加速的DiagD进行了验证。

MC - AR为了研究对角解码在不同规模模型上的性能,以及验证所提出的微调策略,我们从头开始训练了一系列模型。具体来说,我们使用了VPT数据集[3],该数据集包含游戏《我的世界》(Minecraft)中的游戏场景和动作对。我们使用图像VQ - VAE [29]将原始游戏场景转换为大小为的潜在标记,即和。然后,以游戏场景和动作的串联作为输入,通过预测下一个标记来训练一个Transformer解码器。我们训练的模型参数规模从到。我们在附录中给出了基线模型和训练过程的详细描述。

1.2. 评估设置

指标 对于所有模型,我们使用一块英伟达80GB A100 GPU,批量大小设为1以获取结果。我们提出了不同的指标来评估视觉质量和推理速度。我们遵循常规做法,采用的指标包括弗雷歇视频距离(Fréchet Video Distance,FVD)[35]、峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)[16]、学习感知图像块相似度(Learned Perceptual Image Patch Similarity,LPIPS)[45]和结构相似性指数(Structural Similarity Index Measure,SSIM)[38]。对于推理速度,我们报告三个指标。一是模型生成的每秒帧数(Frames Per Second,FPS),通过实际时钟时间计算得出。二是步数(Step),表示模型生成视频所需的前向传播次数。此外,还记录每秒输出令牌的吞吐量(ThroughPut,TP),这在实时应用中是一个关键指标。

除了自动指标外,我们还提供人工评估(详见4.4节),从多个方面评估生成结果,包括整体视觉质量、物体运动一致性以及两种设置之间的比较。

评估数据集 下面介绍每个模型的测试集。对于Cosmos模型,目前没有开源的评估流程和数据集。因此,我们根据其技术报告[1]中提供的细节自行实现了评估流程。我们从RealEstate 数据集[47]中随机抽取了100个包含33帧的视频作为测试集。对于WHAM模型,由于时间和资源的限制,我们从官方评估集中随机选择了100个包含100帧的视频。未来的修订版中将报告对包含个视频的整个测试集的实验结果。至于MC - AR模型,我们从VPT [3]中分割出100个视频片段作为测试集,每个片段包含16帧。更多细节见附录。

2. 主要结果

在本节中,我们展示了DiagD在各种基线模型和任务上的主要结果。

Cosmos 我们将同时具有时间和空间加速功能的DiagD应用于Cosmos自回归模型,设置,使得在前一帧最后一行的前个标记生成后开始生成下一帧。我们考虑了两个任务,包括视频延续和文本到视频生成,以及不同规模的Cosmos模型。在给定9个初始帧(对于文本到视频任务还包括文本描述)的条件下,模型需要生成接下来的24帧。我们还展示了14B的Cosmos扩散模型的性能以供参考。

表1. 宇宙模型上的定量评估。和指用于视频续接的模型,而和指用于文本到视频生成的模型。“NTP”指下一个标记预测范式。DiagD 表示对角解码算法,其中等于,等于的不同值。“STEP”指模型生成视频所需的前向传播次数。“TP”表示吞吐量,即自回归模型每秒可以生成的标记数量。

结果列于表1中,其中考虑了不同值的Di - agD变体。由于在各变体中相同,因此省略其表示。与朴素的下一个标记预测(NTP)相比,NTP生成24帧需要步,而DiagD将步数减少到仅到步,从而在解码过程中实现了显著的并行性。就通过实际时钟时间测量的每秒帧数(FPS)而言,在各种设置和模型规模下,DiagD相对于NTP实现了约倍的加速。

在视觉质量方面,最快的变体在较小的4B Cosmos模型中会导致质量下降。然而,通过设置或将模型扩展到12B,这种差距就会消失。总体而言,对角解码以无需训练的方式显著加快了推理速度,并且对视觉质量的影响最小。

WHAM 在WHAM模型上,我们仅验证了具有空间加速功能的DiagD的性能。具体来说,在这种设置下,我们将和设置为1或2。这里的生成任务具有挑战性,因为模型需要在一个初始帧和一系列动作的条件下生成100帧,并且由于误差累积,前几帧中的微小误差会导致性能大幅下降。

结果如表2所示。仅使用空间维度的对角解码(Di - agD)与下一令牌预测(NTP)相比,生成整个视频需要步,并且在帧率(FPS)方面带来了约4倍的加速。这与我们在公式(4)和(6)中的推导一致,其中时间加速额外带来了大约倍的加速。在视觉质量方面,与较小的模型相比,较大的模型表现出的性能下降较少,这表明较大的模型能够更好地容忍对角解码引入的训练 - 推理差距。总体而言,这些结果证明了对角解码(DiagD)的空间变体在不同模型规模下平衡生成速度和视觉保真度方面的有效性。

表2. 在WHAM上的定量评估。每个评估视频的时长为10秒,帧率为。对于该数据集中的每个视频,前10帧以及完整的动作序列作为生成的提示信息。

多条件自回归(MC - AR) 我们在多条件自回归(MC - AR)模型上验证了所提出的微调策略,并在附录中分析了其扩展性。具体而言,我们将预训练自回归Transformer中的标准因果注意力掩码替换为与对角解码(DiagD)对齐的掩码,然后对模型再进行步的微调。如表3所示,微调有效地缓解了训练 - 推理差距,在保持对角解码(DiagD)快速推理速度的同时提高了生成质量。

表3. 在上的定量评估。使用对角注意力掩码进行微调有助于缩小训练 - 推理差距并提高性能。

人工评估 我们进行人工评估作为自动评估的补充。对于Cosmos - 12B模型,我们提供了由下一令牌预测(NTP)和对角解码(DiagD)生成的10个视频,并要求参与者评估哪一种方法在视觉质量和相机一致性方面表现更好。对于多条件自回归(MC - AR),我们要求参与者比较经过和未经过微调的对角解码(DiagD)的生成结果,包括视觉质量和可控性。如图3所示,我们发现:1)对角解码(DiagD)和下一令牌预测(NTP)生成的视频在视觉质量和语义含义上相似;2)对于较小的700M模型,微调有助于显著提高视觉质量。

图3. 应用DiagD的Cosmos - 12B模型和经过或未经过DiagD微调的MC - AR 700M模型的人工评估结果。在图中,“Win”表示左侧设置优于右侧设置,而“Lose”表示相反情况。结果表明,Di - agD的性能与NTP相当,并且微调有助于其表现更好。

3. 分析

注意力模式 如图4所示,我们可视化了Cosmos - 自回归 - 4B模型生成的第二帧的注意力图。对角模式表明,显著的注意力分数被分配给固定间隔的令牌,这些令牌对应于前几行同一列和前一帧中的令牌。在空间上,沿同一对角线的令牌表现出显著高的注意力分数,表明具有很强的空间相关性,如注意力图中右侧突出显示的方块所示。在时间上,令牌主要关注前一帧中的相邻位置,强调了时间相关性,如注意力图中左侧方块所示。

图4. 展示了Cosmos - 模型中第二帧的注意力分数。明亮的斜线表明,大量的注意力分数被分配给了按规则间隔排列的标记,这些标记对应于时间和空间上相邻位置的标记。所示的注意力图是模型中所有自注意力层的平均值。

缩放效应 我们还观察到,对角解码(DiagD)在较大的模型上实现了更好的性能和更大的加速,这证实了较大的模型比小模型能捕捉到视频中更多的空间和时间特性。尽管Cosmos - 4B和Cosmos - 12B在使用下一令牌预测时表现出几乎相同的弗雷歇视频距离(FVD)分数,但在使用对角解码(DiagD)时,它们的分数有显著差异。此外,我们观察到,与使用下一令牌预测的较小模型相比,Cosmos - 12B和WHAM - 1.6B在使用对角解码(DiagD)时都实现了更高的帧率(FPS)和更好的视觉质量。因此,对角解码(DiagD)可以作为一个有效的基准,用于评估模型是否准确捕捉了空间和时间冗余,这可以揭示自回归视频建模的本质。

超参数研究 在附录的表1中,我们展示了Cosmos - 4B和Cosmos - 12B的各种超参数组合的结果。我们发现,对控制加速比的影响比更显著。当的值相似时,帧率(FPS)保持相当。此外,增加可以提高视觉质量。通过调整和的值,我们可以精确地平衡视觉质量和推理速度。这一发现表明,对角解码(DiagD)可以灵活使用,消除了仅为计算效率而训练较小模型的必要性,打破了模型大小和推理速度之间的强相关性。

4. 案例研究

在本节中,我们展示了DiagD在不同模型上的生成结果的案例研究。在图5的上半部分,我们展示了在Cosmos - 12B模型上使用DiagD的结果。与通过下一令牌预测获得的结果相比,DiagD提供了连贯的相机移动和全面的图像细节。在下半部分,我们展示了空间变体DiagD在1.6B WHAM模型上的结果,其中DiagD在所有帧中始终提供高保真图像,未观察到误差累积。此外,通过下一令牌预测和DiagD生成的视频呈现出几乎相同的物体运动,这表明我们的算法在长距离生成过程中成功保留了模型的可控性和视觉质量。

图5. Cosmos和WHAM的定性分析。由Cosmos - 12B和1.6B WHAM模型使用下一个标记预测范式(第二行)和不同配置下的对角解码(底部两行)生成的视频。第一行展示了真实样本。我们从Cosmos生成的视频中每隔6帧采样一次,从WHAM生成的视频中每隔8帧采样一次。

此外,我们展示案例以证明我们的微调方法的有效性。如图6所示,仅进行步的微调有助于减少模糊区域的生成,并提供与通过NTP生成的视频质量相似的视频。

图6. 多条件自回归(MC - AR)结果的定性比较。未经微调的模型生成的帧可能会显得模糊,通过额外的步微调可以缓解这种情况。

总结

在本文中,我们介绍了对角解码(Diagonal Decoding,DiagD),这是一种无需训练的算法,可显著加速自回归视频生成模型的推理速度。通过利用连续帧中的空间和时间相关性,DiagD沿对角路径生成令牌,在保持视觉保真度的同时实现了大幅加速。通过在不同模型、任务和数据集上进行的大量实验,我们证明了我们方法的效率和通用性,在保持Cosmos模型性能的同时,将其推理延迟降低了。此外,我们提出了一种轻量级的微调策略来缩小训练 - 推理差距,以最小的计算成本进一步提高生成质量。因此,DiagD为实时视频生成提供了一种实用且可扩展的解决方案,拓展了自回归Transformer在下游任务和相关应用中的可实现范围。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值