高德开源数字人核心引擎,打造真实可控的音频驱动数字人

导读

       FantasyTalking——高德地图视频数字人技术的核心引擎,深度赋能导航数字人等核心场景。

       从单张静态肖像创建一个逼真的可动画化虚拟形象仍然具有挑战性。现有的方法通常难以捕捉细微的面部表情、相关的全身动作以及动态背景。为了解决这些限制,我们提出了一种新颖的框架,利用预训练的视频扩散变换模型生成高保真、连贯的说话肖像,并具备可控的运动动态。

       我们工作的核心是一种双阶段的视听对齐策略。在第一阶段,我们采用片段级训练方案,通过对整个场景(包括参考肖像、上下文物体和背景)中的音频驱动动态进行对齐,建立连贯的全局运动。在第二阶段,我们使用唇部追踪掩码在帧级别优化唇部运动,确保与音频信号的精确同步。为了在不牺牲运动灵活性的前提下保持身份特征,我们用一个专注于面部的交叉注意力模块替换了常用的参考网络,从而在整个视频中有效保持面部一致性。此外,我们集成了一个运动强度调制模块,显式控制表情和身体运动的强度,使肖像运动的操控不仅限于唇部动作。大量实验结果表明,我们提出的方法在质量、真实感、连贯性、运动强度和身份保持方面均取得了显著提升。

论文标题:FantasyTalking: Realistic Talking Portrait Generation via Coherent Motion Synthesis

论文链接:https://arxiv.org/pdf/2504.04842

项目主页:https://fantasy-amap.github.io/fantasy-talking/

代码地址:https://github.com/Fantasy-AMAP/fantasy-talking

核心亮点

FantasyTalking

  1. 更高真实性与连贯性:打破传统仅支持受限的面部音频驱动的使用场景,可支持生成动态肖像的面部表情、唇部运动和身体动作更自然,背景和上下文对象动态协调。

  2. 精确的音频同步:提出了双阶段视听对齐训练方法,强化片段级的音频-视觉同步和帧级唇部细化确保唇动与音频信号高度同步。

  3. 身份保持与动态灵活性的平衡:打破传统参考网络对整张图片的关注,使用聚焦面部的交叉注意力模块在保持面部一致性的同时,允许全身灵活运动。

  4. 可控运动强度:用户可调节表情和身体动作的强度,超越传统仅唇部运动的限制。

效果展示

FantasyTalking

  • 真实的Talking Videos:FantasyTalking 支持生成各种身体范围和方向的逼真说话视频,包括特写肖像、半身、全身以及正面和侧面姿势。

  • 支持多种风格的人物:FantasyTalking 可以支持各种风格、形态的角色,不仅是写实的人,卡通形象甚至动物都可以文本、音频驱动生成动态、富有表现力且自然逼真的动画视频。

  • 比肩闭源商业工具的效果:我们将 FantasyTalking 模型与众多前辈产品诸如 Hallo3、Sonic 以及 OmniHuman-1(当前用于多模态条件人类视频生成的 SOTA 方法)进行了比较。

方法

FantasyTalking

       如下图所示,给定单张参考图像、驱动音频和提示文本,FantasyTalking被设计用于生成与音频同步的视频,同时确保人物在动作过程中的身份特征得以保持。研究了双阶段方法以在注入音频信号时保持视听对齐。我们采用身份学习方法保持视频中的身份特征,并通过运动网络控制表情和运动强度。

1、双阶段视听对齐
视听对齐。本文使用Wav2Vec提取包含多尺度丰富声学特征的音频token。如下图3所示,音频token长度与视频token长度不同,但是这两个token序列之间存在一一映射关系。传统的说话头视频生成通常关注唇部运动的帧级对齐。然而,自然说话头生成不仅需要关注与音频直接相关的唇部运动,还需关注与音频特征弱相关的其他面部组件和身体部位的运动(如眉毛、眼睛和肩膀)。这些运动并不与音频严格时间对齐。为此,我们提出双阶段视听对齐方法:在第一训练阶段学习片段级与音频相关的视觉特征;在第二训练阶段专注于帧级与音频高度相关的视觉特征。

第一阶段(片段级训练):利用视频扩散Transformer模型的时空建模能力,建立音频与全局视觉动态(包括肖像、背景和上下文对象)的隐式关联,实现整体场景运动的连贯性。如图3(a)所示,第一阶段在片段级别计算全长视听token序列的3D全注意力相关性,建立全局视听依赖关系并实现整体特征融合。虽然该阶段能联合学习弱音频相关的非语言线索(如眉毛运动、肩膀动作)和强音频同步的唇部动态,但模型难以学习精确的唇部运动。这是因为唇部仅占据整个视场的小部分,而视频序列在每帧中都与音频高度相关。

第二阶段(帧级细化):如图3(b)所示,第二阶段通过帧精确的视听对齐专门优化唇部中心运动。我们将音频和视频按一一映射关系分段,将视频token重塑为   形状,音频token重塑为   形状,其中   表示通道数。随后计算这些token间的3D全注意力,确保视觉特征仅关注对应的音频特征。此外,为将注意力集中于唇部区域,我们提取像素空间的精确唇部掩膜,并通过三线性插值投影到潜在空间,形成唇部聚焦约束掩膜。公式1中的帧级损失因此被重新加权为:   

其中⊙表示逐元素相乘。然而,仅依赖唇部特定约束可能导致过度正则化,抑制自然的头部运动和背景动态。为缓解此问题,我们采用概率   来控制约束的应用强度,使模型能在聚焦唇部运动与保持整体运动自然性之间实现平衡。

2、身份保持
       虽然音频条件能有效建立声学输入与角色动作间的关联,但长时间视频序列和剧烈运动常导致合成结果中身份特征快速退化。现有方法通常采用从主干模型初始化的参考网络来保持身份特征,但这些方法存在两个关键缺陷:首先,参考网络处理全帧图像而非面部感兴趣区域,导致模型偏向生成静态背景和表现力受限的运动;其次,参考网络通常采用与主干模型相似的结构,造成特征表示能力高度冗余,并增加模型计算负载和复杂度。

        为解决该问题,本文提出一种保持面部特征一致性的身份保持方法。首先从参考图像中裁剪面部区域,确保模型仅关注与身份相关的面部区域。随后利用ArcFace提取面部特征,并通过Q-Former进行对齐,最终得到ID嵌入   。与音频条件类似,这些身份特征通过专用交叉注意力层与每个预训练DiT注意力块交互。形式上,每个DiT块的隐藏状态   被重构为:     其中   表示注意力块的层数,   是查询矩阵,    和   分别是音频和身份的键矩阵,和   是注意力操作中的音频和身份值矩阵。超参数   和   控制着音频条件和身份条件的相对贡献。

3、运动强度控制

       个体的说话风格在面部表情和身体运动幅度上表现出显著差异,这些差异无法仅通过音频和身份条件进行显式控制。特别是在自然说话头场景中,与拘束说话头场景相比,角色的表情和身体运动更加多样且动态。因此,引入了一个运动强度调制网络来调控这些动态特征。

       我们利用Mediapipe提取面部关键点序列的方差,记为面部表情运动系数   ,并使用DWPose计算身体关节序列的方差,表示为身体运动系数   。面部表情运动系数和身体运动系数都被归一化到[0,1]的范围,分别代表面部表情和身体运动的强度、运动强度调制网络由MLP层、ResNet层和平均池化层组成。得到的运动嵌入会与时间步相加。在推理阶段,允许用户自定义输入系数   和   来控制面部和身体运动的幅度。

实验结果

FantasyTalking



受限数据集对比实验

FantasyTalking

      拘束说话头数据集的背景和角色姿态变化有限,主要关注唇部同步和面部表情准确性。本方法在FID、FVD、IDC、ES和美学评分上均取得最优成绩,这主要归功于模型能生成最具表现力的自然面部表情,从而产生最高质量的视觉效果。在Sync-C和Sync-D指标上,本方法取得第一或第二的成绩,表明DAVA方法使模型能准确学习音频同步特征。

自然数据集对比实验

FantasyTalking

       现有方法过度依赖参考图像,限制了生成的面部表情、头部运动和背景动态的自然度。相比之下,本方法在所有指标上均取得最优结果,其输出具有更自然的前后景变化、更好的唇部同步和更高的视频质量。       

       这主要得益于:1)DAVA方法强化了音频理解能力;2)面向面部特征的身份保持方法。这些技术使模型在保持角色身份特征的同时,能生成更复杂的自然头部和背景运动。

运动强度控制与Sonic对比

FantasyTalking

       Sonic通过参数   提供类似的运动强度控制功能。我们将运动强度分为三个等级进行对比实验:轻微、自然和剧烈。在自然和轻微强度下,两种方法都能良好控制运动强度并保持唇部同步。但在剧烈运动场景中,本方法因考虑全身运动(而Sonic仅控制头部),展现出更完整的人体运动表征能力。

与Hallo3对比

FantasyTalking

     在与Hallo3的对比中,Hallo3的输出存在明显缺陷,对比的结果中Hallo3出现面部/唇部畸变和虚假背景运动和僵硬的头部运动。相比之下,本方法生成的表情、头部运动和背景动态都更加真实自然,这得益于面部知识学习增强身份特征和DAVA方法强化唇部同步学习。

项目主页|https://github.com/Fantasy-AMAP/fantasy-talking

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值