🌐 社群导航
🔗 点击加入➡️【AIGC/LLM/MLLM/3D/自动驾驶】 技术交流群
最新论文解读系列
论文名:TA-V2A: Textually Assisted Video-to-Audio Generation
论文链接:https://arxiv.org/pdf/2503.10700
开源代码:暂无
导读
近年来,视频到音频这一特定模态转换任务受到了广泛关注。从视频中生成相应音频的能力对于增强虚拟现实体验、自动视频拟音合成以及提高机器人感知和理解环境的性能等应用至关重要。
简介
随着人工智能生成内容(AIGC)的不断发展,视频到音频(V2A)生成已成为一个关键领域,在多媒体编辑、增强现实和自动化内容创作等方面具有广阔的应用前景。虽然Transformer和扩散模型推动了音频生成的发展,但从视频中提取精确语义信息仍然是一个重大挑战,因为当前模型往往仅依赖基于帧的特征,从而丢失了序列上下文信息。为了解决这一问题,我们提出了TA-V2A方法,该方法整合了语言、音频和视频特征,以改善潜在空间中的语义表示。通过引入大语言模型来增强视频理解能力,我们的方法利用文本引导来丰富语义表达。我们基于扩散模型的系统利用自动文本调制来提高推理质量和效率,并通过文本引导界面提供个性化控制。这种整合在确保时间对齐的同时增强了语义表达,从而实现更准确、连贯的视频到音频生成。
方法与模型
我们的TA - V2A生成系统结合视频、音频和文本数据,使用对比学习、特征对齐和生成式建模,从视频输入中生成同步的音频输出。完整工作流程的概述如图1所示。
图1. TA-V2A生成系统的完整工作流程。该系统以视频和文本描述作为输入,其中文本描述由大语言模型(LLM)生成。对比式视频 - 音频 - 语言预训练(CVALP)模块从视频、音频和文本中提取并对齐特征,创建与音频对齐的视频和文本特征。然后将这些特征输入潜在扩散模型(LDM),该模型从噪声中迭代生成高质量音频。在推理过程中,使用诸如分类自由引导(CFG)和人工修改的文本提示等引导技术来控制生成过程,确保生成的音频与输入模态更好地对齐。最后,将音频表示解码为梅尔频谱图,并使用声码器将其合成为实际的音频波形。
该系统从视频和文本输入开始,文本可以是手动提供的,也可以由大语言模型生成,并进行自动增强。在对比视频 - 音频 - 语言预训练(CVALP)模块中,特定模态的编码器提取视频、音频和文本的特征,对这些特征进行对齐,并融合为与音频对齐的特征。这些特征被输入到潜扩散模型(LDM)中,该模型从高斯噪声中生成音频特征。LDM的输出被解码为梅尔频谱图,并由声码器合成为音频波形。训练过程会优化系统参数,而推理过程则生成最终的同步音频输出。下面,我们详细介绍系统的每个组件。
A. 对比式视频 - 音频 - 语言预训练
CVALP模块是我们特征提取和对齐过程的核心。受先前研究[12]、[19]、[20]的启发,CVALP使用跨视频 - 音频和文本 - 音频对的对比学习,将视频和文本模态与音频进行对齐。这种同时进行的对齐方式提高了特征质量、收敛速度、模型鲁棒性和分层学习能力。
给定一个视频 - 音频 - 文本三元组 ,其中表示一个包含帧、尺寸为且具有RGB通道的视频片段,表示一个具有个时间步长和个梅尔带的梅尔频谱图,是相应的文本描述。我们使用视频、音频和文本编码器 和从视频和音频中提取特征 ,其中是时间片段的数量,是特征维度,从文本中提取特征 。为了对齐特征维度,我们对视频和音频特征应用时间池化,得到 和 。这确保所有特征都处于同一空间 ,便于融合和比较。
我们将第个跨模态对的对比损失函数定义为:
其中 和是来自不同模态的特征向量, ,是跨模态对的数量,控制softmax的平滑度。分子表示正确对之间的相似度,而分母对和所有对之间的相似度求和。这个损失函数不具有排列对称性,因为交换 和会改变计算结果,因为始终是与所有进行比较的锚点。当一种模态(如文本)为对齐另一种模态(如视频或音频)的特征提供更强的语义指导时,这种不对称性很有用。
对于特征三元组 ,我们将以音频为中心的损失函数定义如下:
其中 、分别表示第个样本的音频、文本和视频嵌入。 、分别表示总的音频 - 文本对、跨视频的音频 - 视频对和视频内的时间对,如文献[12]中所定义。
参数 和 是权重,用于确定不同损失分量的相对重要性: 反映了文本相对于视频的重要性, 表示对时间对齐与语义表达的侧重程度。这些参数将通过实验来确定。
公式 (2) 衡量了音频与文本之间的相似度,而公式 (3) 和 (4) 从语义和时间的角度表达了音频与视频之间的相似度。公式 (5) 中的最终损失函数整合了这些模态对。
B. 特征混合
为了融合从不同模态中提取的特征,我们采用了特征混合策略,以平衡视频和文本中的信息。由于视频模态同时包含语义和时间特征,而文本通常只包含语义特征,盲目地对齐两者(例如使用交叉注意力等方法)可能会导致在跨模态音频视频预训练(CAVP)中学习到的时间对齐信息丢失。为了解决这个问题,我们采用加权平均和拼接的方法进行特征融合:
其中 和 是线性投影,将维度减半以保持 大小相同。
我们利用位置编码和投影层 将 映射到合适的维度,表达式为 ,其中多层感知机(MLP)作为投影层,PE 表示位置编码。这种混合特征表示被用作潜在扩散模型(LDM)训练和推理的输入特征向量。
C. 潜在扩散模型
潜在扩散模型(LDM)在低维潜在空间中生成高维音频数据 [21]。从编码后的梅尔频谱图 开始,在潜在空间中进行扩散过程,逐步向 中添加噪声,形成一系列潜在变量 。每个扩散步骤建模如下:
其中 表示时间步, 是扩散系数, 表示正态分布。在数据生成时,模型从高斯分布中抽取的样本 开始,反转扩散过程。神经网络 在每个时间步预测反向步骤:
其中 表示由参数为 的神经网络预测的高斯分布的均值, 表示标准差,通常与时间步 相关。
反向扩散后,最终的潜在变量 由 解码回数据空间,生成梅尔频谱图 ,然后使用声码器将其转换为音频样本。条件损失函数如下:
D. 引导推理
在推理过程中,采用分类器引导(CG)[22] 和无分类器引导(CFG)[23] 等引导技术来控制生成过程。分类器引导(CG)依赖于额外的分类器 ,通过类别标签对数似然 的梯度在每个时间步引导反向过程。另一方面,无分类器引导(CFG)结合了条件和无条件得分估计来引导反向过程。如文献 [12] 所建议的,可以应用双重引导来增强对齐:
其中 和 分别表示分类器引导(CG)和无分类器引导(CFG)的缩放因子。值得注意的是,无分类器引导(CFG)使用 ,而分类器引导(CG)使用 ,这是因为如文献 [12] 中所讨论的,为了实现视听对的对齐而训练了对齐分类器 。
从基于能量的模型(Energy Based Models,EBMs)[24]的角度来看,多个条件也可以在不组合的情况下独立影响推理过程。条件概率可以通过以下公式进行估计:
在这里,我们定义来表示无条件得分估计和条件得分估计之间的差异:
其中是条件,是一个超参数。那么多条件推理步骤可以表示为
其中表示视频特征,表示提示特征,表示负提示特征。这种方法通过独立考虑多个条件的影响,实现了更灵活的推理过程。
该工作流程旨在通过CVALP高效处理视频和文本描述,使用LDM对齐和混合特征,并应用推理技术生成与给定视频内容匹配的最终高质量音频输出。具体而言,在推理过程中,人类输入的正提示将通过便携式插件提示优化器(Portable Plug - in Prompt Refiner,PPPR)[25]进行标准化处理,以确保其与训练中涉及的人工智能生成文本相对应。如果没有人类提供的提示,我们将使用Video - LlaMA2 [18]模型自动生成视频内容的描述。
实验与结果
A. 数据集和数据处理
我们的研究使用了VGGSound [26]数据集,该数据集包含约200,000个视频,每个视频时长为10秒。与原始方案一样,我们选择使用该数据集提供的训练集和测试集划分,其中训练集有183,971个视频,测试集有15,496个视频。数据预处理包括视频、音频和文本处理:将视频调整为大小,并以进行帧采样;音频以进行采样,并转换为梅尔频谱图(梅尔基),跳步大小统一设置为256。对于文本处理,我们使用ChatGPT4o扩展了VGGSound数据集中的注释,以改善文本 - 音频对齐,并保持与推理提示的一致性。使用统一的提示来生成视频描述,这些描述在CVALP训练中作为对比学习材料:
“以下是一个视频数据集中的注释文本。请将每条注释扩展为完整的句子,保持核心内容不变。”
为了在对比学习中引入变化并避免相似视频出现相同的描述,我们在保留核心内容的同时应用了PPPR,具体细节见[25]。
B. 配置
在CVALP对比学习过程中,我们采用在AudioSet [28]数据集上预训练的PANNs [27]模型作为音频编码器,在Kinetics - 400 [30]数据集上预训练的SlowOnly [29]模型作为视频编码器,并使用Flan - T5 [31]作为文本编码器。对于LDM,我们采用Stable Diffusion的架构,使用冻结的预训练潜在编码器和解码器组件。去噪过程包含1000步,我们使用的学习率,并设置初始热身阶段为1000步。在推理阶段,我们引入了代理注意力[32],它通过引入代理令牌来提高计算效率,同时保持全局上下文建模,以提升速度和效果。
我们将CFG缩放比例设置为,将CG缩放比例设置为,与[12]相同。对于复合条件推理,我们通过实验将设置为2.5。生成梅尔频谱图后,我们使用同样基于扩散模型架构的GLA - GRAD [33]声码器来生成音频信号。
C. 评估
(1) 评估指标:
基线 我们使用相同的LDM模块进行消融实验,通过不同方法提取潜在特征。我们的模型采用了CVALP模块,并使用平均(aver.)和拼接(concat)技术。为了进行比较,我们与使用CAVP模块的Diff - Foley [12]模型和使用Clip4Clip [34]的VTA - LDM [13]模型进行了测试。所有实验均在VGGSound [26]测试集上进行,生成8秒的音频片段进行评估。
客观评估 我们采用了文献[13]、[35]中的四个指标来评估语义生成质量: inception得分(IS),用于评估生成分布与真实数据多样性的匹配程度;弗雷歇inception距离(FID)和弗雷歇音频距离(FAD),如文献[36]所示,用于比较生成样本与真实样本的统计特征,验证了它们的有效性;平均库尔贝克-莱布勒散度(MKL),用于衡量生成数据与真实数据概率分布之间的差异,反映它们的对齐程度。我们还使用了文献[12]中的对齐准确率(Align)来评估生成音频与视频内容之间的时间同步性。
主观评估 二十名参与者(8名女性,12名男性,年龄在20 - 45岁之间),自我报告听力正常、视力正常或矫正后正常,使用森海塞尔HD600耳机对视听片段进行评分。参与者观看了五个不同的视频,每个视频有四条生成的音轨,对应表格中列出的四种实验条件(由“模型”和“潜在特征”列共同确定),呈现顺序随机。每个参与者只听一次每个音频样本,以确保评分反映他们的第一印象。对五个视频中的每个视频都重复此过程。
在这些条件中,“用户”组根据视频内容撰写描述。这些描述在“用户”条件下用作模型的文本提示输入,在扩散过程中作为引导条件。
参与者使用平均意见得分(MOS)[37]在五分制量表上对音轨进行评分,其中1代表“差”,2代表“较差”,3代表“一般”,4代表“好”,5代表“优秀”。语义一致性的MOS基于音频内容与视频内容的匹配程度,而时间对齐的MOS基于音频与视觉线索的同步程度。
(2) 结果与分析:
为了更有效地展示我们的结果,我们提供了一个视频,直观地展示了音频生成的结果:展示
客观评估结果 表I展示了模型的客观评估结果。当使用拼接(concat)方法推导CVALP特征时,TA - V2A模型在所有指标上都表现出显著的强劲性能,在FID和FAD指标上取得了特别出色的结果。相比之下,使用平均(average)方法时性能下降,可能是因为简单的平均过程破坏了特征向量或矩阵的代数结构。拼接多模态信息,然后进行投影和降维的方法,在增强语义表达的同时,有效地保留了视频特征内的对齐能力。
TABLE I 客观评估结果
图2. 视频 - 音频对齐示例。顶部显示羽毛球序列的帧,底部比较不同方法的音频频谱图:真实值、TA - V2A、Diff - Foley和VTA - LDM。黄色框突出显示视频和音频之间的关键同步时刻。
图2比较了不同模型生成的音频,重点是我们的TA - V2A模型。顶部显示的视频帧描绘了一场羽毛球比赛,有多个羽毛球击球的场景,这也是音频生成模型的关键关注点。我们的模型生成的音频频谱图在时间和频率上都与真实值非常接近。这表明TA - V2A模型准确地捕捉到了关键音频事件,如球拍击球的尖锐声音和羽毛球的飞行声音,同时与视频中的视觉动作保持了精确的时间对齐。
主观评估结果 表II展示了模型的主观评估结果。当在推理阶段应用用户修改时,TA - V2A模型在语义一致性方面获得了最高的MOS。这表明,文本控制界面的集成以及PPPR文本扩展方法,显著增强了模型生成与视频语义一致且与人类理解紧密对齐的音频的能力。
TABLE II 主观评价结果
实际上,正如上述分析所证明的,语义表达和时间对齐是相互关联的,而不是完全独立的变量。只有具备高质量的识别和生成能力,才能有意义地评估对齐的准确性。
总结
我们提出了TA - V2A,这是一个用于文本辅助视频到音频生成的创新系统,具有一种预训练方法,该方法使用先进的扩散引导技术对齐视频、文本和音频。它包括一个用于个性化声音生成的文本界面。广泛的评估表明,TA - V2A在客观和主观评估中均优于现有方法,增强了语义表达。我们旨在推动更以人为本、具有上下文感知的声音生成。我们希望推动该领域朝着更以人为本、具有上下文感知的声音生成方向发展。