🌐 社群导航
🔗 点击加入➡️【AIGC/LLM/MLLM/3D/自动驾驶】 技术交流群
数源AI 最新论文解读系列
论文名:PC-Talk: Precise Facial Animation Control for Audio-Driven Talking Face Generation
论文链接:https://arxiv.org/pdf/2503.14295
导读
频驱动的会说话人脸生成在数字人、电影制作和语音助手等应用中越来越普遍。为了满足这些领域的定制需求,生成的人脸不仅要使唇形与相应音频准确同步,还要为用户提供精确的面部动画控制,以实现个性化生成。
简介
近年来,音频驱动的会说话人脸生成技术在唇形同步方面取得了巨大进展。然而,当前的方法往往缺乏对说话风格和情感表达等面部动画的足够控制,导致输出结果单一。在本文中,我们专注于改善两个关键因素:唇音对齐和情感控制,以提高会说话视频的多样性和用户友好性。唇音对齐控制侧重于说话风格和唇动幅度等元素,而情感控制则侧重于生成逼真的情感表达,并允许在强度等多个属性上进行修改。为了实现对面部动画的精确控制,我们提出了一个新颖的框架 PC-Talk,它通过隐式关键点变形实现唇音对齐和情感控制。首先,我们的唇音对齐控制模块便于在单词级别精确编辑说话风格,并调整唇动幅度以模拟不同的发声响度,同时保持唇形与音频同步。其次,我们的情感控制模块通过纯情感变形生成生动的情感面部特征。该模块还能够精细修改强度,并在不同面部区域组合多种情感。我们的方法在大量实验中展示了出色的控制能力,并在 HDTF 和 MEAD 数据集上达到了最先进的性能。
方法与模型
图 2. 我们的框架 PC - Talk 旨在在会说话的面部生成中实现精确的面部动画控制。它通过首先预测隐式关键点的变形,然后将其渲染成最终的会说话的图像来实现这种控制。我们利用唇音对齐控制(LAC)模块来估计唇同步变形 ,并利用情感控制(EMC)模块来估计情感变形 。
1. 预备知识
如图 2 所示,我们的框架利用隐式关键点作为中间表示,以实现精确的面部动画控制。该流程从参考图像 开始,我们使用运动提取器从中提取隐式关键点 。我们的运动提取器与 LivePortrait [10] 具有相同的架构,它由三个关键组件组成:一个用于计算旋转 、变换 和比例因子 的姿态估计器;一个用于评估表情变形 的表情估计器;以及一个用于从各种身份参考图像中识别原始关键点 的规范关键点检测器。 的计算如下进行:
请注意,这些隐式关键点中的一些具有语义含义,例如与嘴唇或眉毛对应的关键点,因为它们与二维面部标志点相关联。一旦提取了关键点,我们的框架通过计算来自 LAC 模块的唇同步变形 和来自 EMC 模块的情感变形 来实现精确的面部动画控制。然后将这些变形组合起来,以生成驱动关键点 ,如下所示:
然后,我们使用变形模块和解码器渲染最终图像 。变形模块估计 和 之间的流场,并将其应用于外观特征 。这里, 是使用身份编码器从参考图像
中提取的。解码器随后从变形后的特征生成最终图像 。整个过程可以总结如下:
由于我们使用隐式关键点作为面部表示,我们只训练 LAC 和 EMC 模块,同时保持其他参数固定。
2. 唇音对齐控制
我们的 LAC 模块生成变形 以确保唇同步,并管理与说话相关的控制,例如说话风格和嘴唇动作的幅度。该模块首先利用输入音频生成同步的嘴唇动作,然后使用编辑模块对生成的结果进行精确控制。
表情预测器。为了实现精确的唇同步,我们首先使用表情预测器来理解音频和嘴唇动作之间的一般关系。受 FaceFormer [6] 的启发,我们使用一个风格感知的自回归 Transformer [30] 来预测表情变形。数据集中的每个身份由一个独热码表示,然后由风格编码器将其编码为风格嵌入 ,作为模型的输入。这确保了最终结果反映所选身份的说话风格。此外,模型的自回归特性促进了生成结果的时间一致性。至于音频嵌入 ,与现有的依赖于预训练的自动语音识别(ASR)模型(如 Whisper [21] 或 Wav2Vec [23])的方法不同,我们使用一个类似于 Wav2Lip [20] 的预训练音频编码器。该编码器专门针对二维视听同步任务进行训练,确保音频特征和嘴唇动作之间更好的对齐。表情预测器可以表示为:
其中 是预测的表情。在训练期间,损失函数 的计算如下:
其中 是表达式 上的 L1 损失, 用于确保时间一致性。更多细节见补充材料。
嘴唇细化器。我们引入了一个嘴唇细化器来获得更精确的嘴唇形状。由于隐式关键点的解缠能力有限,该模块直接预测细化后的隐式关键点 ,而不是表情变形 ,从而减轻了嘴唇同步时不同姿势和身份的负面影响。我们将 中的表情分量替换为表情预测器的输出 与音频嵌入 拼接后的结果,作为细化模块的输入。我们进一步向输入 中添加少量噪声 以提高鲁棒性。整个过程可表示为:
训练中使用了以下几种损失函数:
其中 的计算公式为:
其中 是作为图像输入的帧序列, 是音频输入。同步损失 改编自 Wav2Lip [20],显著增强了模型实现精确嘴唇同步的能力。关键点损失 和正则化损失 用于约束过度的变形变化,确保结果稳定自然。更多细节见补充材料。
然后我们计算嘴唇同步变形 以进行进一步的控制操作。请注意,在整个过程中,我们仅对与嘴唇相关的关键点进行处理,而其他关键点保持不变,从而简化了模型学习音频与每个关键点之间关系的任务。
嘴唇运动幅度控制。控制嘴唇运动幅度的能力具有广泛的实际应用。例如,大声说话通常会导致更明显的嘴唇运动,而轻声说话则会导致更细微的运动。为了模拟音量对嘴唇运动的影响,我们将隐式关键点变形 乘以一个基于音频输入幅度的缩放因子 。这使我们的模型能够自然地模拟嘴唇运动随音量变化的情况,增强了生成的会说话人脸的真实感和灵活性。
风格编辑。在某些情况下,需要在单词级别控制特定声音的嘴唇运动。例如,我们可能希望在某人说“duck”时改变嘴巴的张开程度,在发“bee”音时改变嘴巴的宽度,或者在发“too”音时控制嘴唇的撅起程度。为了实现这种单词级别的风格编辑,我们的方法采用了与前面描述的嘴唇运动缩放类似的方法。首先,我们推导出特定发音(如“duck”、“bee”和“too”)的隐式关键点变形向量。然后将生成的隐式关键点变形 投影到目标单词向量上,接着应用一个缩放因子来动态调整嘴唇形状。这种技术能够实现精确的、针对特定发音的风格编辑,显著增强了我们方法的表达能力。
3. 情感控制
在我们的 EMC 模块中,我们通过生成情感变形 来合成真实的情感会说话人脸。该模块首先预测纯情感变形,然后进行精确控制,如强度调整,以获得更准确、更具表现力的结果。
提取纯情感变形。在我们的框架中,生成情感会说话人脸的一个创新思路是直接预测情感人脸的变形。然而,在情感会说话人脸中,嘴唇区域的变形既包括嘴唇同步变形,也包括纯情感变形。这两种变形本质上相互交织,直接将它们分离具有挑战性。
为了克服这些限制,我们使用情感表情和中性表情之间的减法运算。首先,我们使用相同的音频输入预测情感表情和中性表情的组合变形,确保它们之间的嘴唇同步变形一致。然后,我们从情感组合变形中减去中性组合变形,以分离出纯情感变形。整个过程可以表示为:
其中CPred表示组合表情预测器(combine expression predictor),emo表示特定情绪类别条件。这种方法能有效分离出情感表达,并确保它们与同步的嘴唇动作无缝融合。通过在LAC模块中使用与组合表情预测器CPred相同架构的表情预测器,我们将规模和风格控制扩展到EMC模块中的情感表达,实现诸如修改情绪强度等应用。
多种情感来源。我们的方法支持使用多种来源来灵活控制会说话的面部的情感表达。对于图像等直接控制源,我们用从目标图像中提取的表情替换原始面部表情,实现直接有效的情感转移。相反,对于音频或文本等更复杂的控制源,我们使用预训练的情绪分类器网络从这些源中提取情感嵌入。补充材料中提供了更多细节。
复杂情感表达生成。复杂情绪通常涉及通过不同面部区域表达的不同情绪类别的组合。例如,一个人可能在嘴巴区域露出微笑,同时通过眼睛传达悲伤。我们的方法利用面部区域中具有语义含义的隐式关键点,为每个面部区域独立生成情感表达。然后将这些特定区域的表达无缝整合,以合成一个能够捕捉复杂微妙情绪状态的会说话的面部。
4. 训练与推理
在LAC模块的唇部细化块的训练过程中,我们引入了数据增强来提高同步能力。如图3所示,增强数据是通过我们方法中的同一框架,利用视频驱动的肖像动画方法[10]无监督生成的。我们从公开可用的会说话人脸数据集HDTF [38]中获取驱动视频,该数据集包含配套音频,而源图像则从高分辨率人脸图像数据集CelebA - HQ [14]和FFHQ [12]中采样,以丰富身份多样性。通过将这种增强数据集成到训练过程中,我们在唇部同步方面取得了更好的性能。有关数据增强的更多细节,请参考补充材料。
图 3. 使用同一框架下的视频驱动肖像动画进行数据增强。
我们的方法可以通过将每一帧处理为无缝扩展到视频输入。对于视频输入,姿态源来自视频本身,而对于图像输入,则从一组预定义的模板中随机选择。在推理过程中,我们采用重叠窗口来确保自回归模型中的时间一致性。此外,可以调整缩放因子等超参数来控制会说话人脸的面部动画,从而根据特定需求合成逼真且可定制的结果。
实验与结果
1. 实验设置
数据集。我们在HDTF [38]和MEAD [31]数据集上评估我们的模型。HDTF包含16小时的高分辨率视频,有300多个受试者(预处理后有帧),而MEAD包含40多个身份和八种情感类型。LAC模块在HDTF和MEAD的中性片段上进行训练,EMC模块在MEAD的情感内容上进行训练。训练集和测试集不重叠划分,测试集包含10秒的音频片段用于跨身份推理。数据增强不包括测试集中的任何身份作为驱动视频,以确保公平比较。
比较基线。我们将我们的方法与三种类型的会说话人脸生成方法进行比较:视频输入方法,包括Wav2Lip [20]、VideoRetalking [2]、MuseTalk [37];单图像输入方法,如SadTalker [36]、Echomimic [1]、Hallo - v2 [4];以及情感会说话人脸生成方法,如EAMM [11]、EAT [7]、ED - Talk [26]。这确保了在不同场景下进行全面评估。
实现细节。我们通过将视频转换为并以采样音频来预处理数据集。对于我们的方法,我们从LivePortrait [10]中初始化冻结参数,包括运动提取器、身份编码器、变形模块和解码器,而音频编码器采用Wav2Lip [20]中的。在训练前,使用这些组件提取隐式关键点和音频嵌入。LAC模块和EMC模块分别使用Adam优化器[13]以的学习率进行训练。值得注意的是,我们在所有比较中使用相同的配置,没有额外的控制来调整最终结果。我们的框架实现了每秒30帧,能够进行实时生成。补充材料中提供了额外的实现细节。
2. 唇部 - 音频对齐评估
指标。我们从三个维度评估唇部 - 音频对齐质量:唇部同步、图像质量和时间一致性。对于唇部同步,我们测量唇部同步误差置信度(LSE - C)和唇部同步误差距离(LSE - D)来量化唇部和音频之间的对齐程度。这两个指标通过在大型野生数据集上训练的SyncNet [3]计算得出。图像质量使用FID [24]作为全参考指标进行评估,使用NIQE [18]进行无参考评估。时间一致性通过FVD [29]来衡量,以评估生成视频的稳定性。
定量结果。如表1所示,我们的方法在HDTF和MEAD中性数据集的大多数评估维度上都达到了最先进的性能。在唇形同步方面,我们的方法优于其他基线方法,在HDTF数据集中,使用视频输入时LSE - C得分高达9.0,使用图像输入时为9.3——这一显著结果甚至超过了专门为唇形同步设计的Wav2Lip [20]方法。在图像质量方面,由于继承了LivePortrait [10]的隐式关键点稳健框架,我们的方法也排名靠前。在时间一致性方面,由于推理过程中采用了自回归模型和重叠窗口,我们的方法同样表现出色。值得注意的是,即使不进行数据增强,我们的方法仍然能达到最先进的性能。
定性结果。如图4所示,与其他方法相比,我们的方法表现更优。在唇形同步方面,我们的方法能实现更精确的唇形,而其他方法与真实情况相比,经常会产生唇形错位的问题。在图像质量方面,其他方法存在牙齿模糊和身份不一致的问题,而我们的方法始终能提供高质量的结果。这些发现凸显了我们的LAC模块的有效性。
图4. 与其他基线的比较。我们使用彩色边界框突出显示其他方法的缺陷,包括牙齿模糊、唇部形状不准确和情感表达错误。
3. 情感评估
在本节中,我们专注于将我们的方法与其他情感化会说话的人脸方法进行比较,使用各种情感标签作为条件。
指标。我们将用于唇音对齐评估的相同指标扩展到评估会说话的人脸性能。对于情感评估,我们采用 [17],它使用预训练网络对生成人脸的情感表达进行分类。此外,我们引入了E - FID [5],它计算3D表情参数与情感参考之间的距离。然而,由于HDTF数据集仅包含中性会说话的人脸,我们仅评估,因为HDTF缺乏计算E - FID所需的情感参考。
定量结果。如表2所示,我们的方法在几个关键方面优于其他方法。与其他情感化会说话的人脸方法相比,我们在唇形同步和图像质量方面表现更优。我们在唇形同步能力上保持了很大优势,相比其他情感化方法具有明显优势。在情感评估方面,我们的方法在两个数据集上的和E - FID指标上都取得了最佳性能,凸显了我们的EMC模块的有效性。
定性结果。如图4所示,与其他方法相比,我们的方法取得了更优的结果。我们的方法能更有效、更生动地传达情感,强度明显更大。例如,我们的方法能轻松捕捉到愤怒时眯眼等特征,而EAT [7]由于其表达能力有限无法合成。同样,ED - Talk [26]由于其情感库受限,会错误地混合愤怒表情,引入悲伤元素。我们的方法中情感类别清晰可辨,而其他方法有时显得模糊不清,这凸显了我们的EMC模块的出色能力。
4. 消融研究
精确的面部动画控制。如图1所示,我们的方法在音频驱动的会说话人脸生成方面提供了精确的面部动画控制。我们的唇音对齐控制能够生成各种说话风格。我们观察到,通过有效控制唇部运动的幅度和风格编辑,唇部形状得到了增强。对于情感控制,我们的模型提供了几类情感,并生成生动的情感表达。正如在情感强度控制中所展示的,随着情感等级的提高,女性愤怒的强度也会增加。此外,我们通过在不同面部区域组合不同的情感来实现复杂的表情控制。第一张图像展示了一张悲伤的嘴巴和惊讶的眼睛,而第二张则描绘了同时微笑和哭泣的表情。这些结果证明了我们方法的充分性和有效性。
唇音对齐。我们对与唇音对齐组件相关的属性进行了实验,包括唇部相关关键点、唇部细化器和数据增强。如表3所示,我们观察到仅预测唇部相关关键点会带来更好的唇音同步性能。将唇部细化器集成到我们的模型中显著增强了同步能力,与其他方法相比达到了最先进的性能。此外,使用数据增强进一步提高了我们的性能。
情感。如图5所示,情感表情与中性表情之间的减法运算显著增强了情感的表达。如果没有这个运算,面部情感会显得不自然,比如嘴巴过度闭合,而我们的方法能够有效地捕捉和传达情感。这证明了减法运算在情感表达方面有显著的改进。
图5. 减法操作的消融研究。
结论
在本文中,我们提出了PC - Talk,这是一个能够在音频驱动的会说话人脸生成中实现精确面部动画控制的框架。我们的方法通过隐式关键点变形来实现这一目标,并且由两个关键组件组成:唇音对齐控制(LAC)模块和情感控制(EMC)模块。LAC模块通过预测唇音同步变形来生成多样化的会说话人脸视频,同时允许控制说话风格和唇部运动幅度等方面。EMC模块通过从各种来源提取纯情感变形来生成生动的情感表达,从而能够控制情感强度以及在不同面部区域组合多种类型的情感。我们的方法在面部动画控制方面表现出卓越的能力,在HDTF和MEAD数据集的大量实验中取得了最先进的结果。