🌐 社群导航
🔗 点击加入➡️【AIGC/LLM/MLLM/3D/自动驾驶】 技术交流群
数源AI 最新论文解读系列
论文名:LHM:Large Animatable Human Reconstruction Model for Single Image to 3D in Seconds
论文链接:https://arxiv.org/pdf/2503.10625
开源代码:https://github.com/aigc3d/LHM
导读
从单张图像创建3D可动画人体虚拟形象对于沉浸式增强现实/虚拟现实(AR/VR)应用至关重要,但由于几何形状、外观和变形的耦合歧义,这仍然是一个具有挑战性的问题。 最近,基于扩散模型的人体视频动画方法已显示出生成逼真人体视频的能力。然而,这些方法在极端姿态下往往会出现视图不一致的问题,并且视频采样需要较长的推理时间。
简介
从单张图像中重建可动画的3D人体是一个具有挑战性的问题,因为在分离几何形状、外观和变形方面存在歧义。近年来,3D人体重建的进展主要集中在静态人体建模上,并且使用合成扫描数据进行训练限制了它们的泛化能力。相反,基于优化的视频方法可以实现更高的保真度,但需要可控的采集条件和计算密集的细化过程。受用于高效静态重建的大型重建模型出现的启发,我们提出了LHM(大型可动画人体重建模型),以在单次前向传播中推断以3D高斯散点表示的高保真虚拟形象。我们的模型利用多模态Transformer架构,通过注意力机制有效地编码人体位置特征和图像特征,从而能够详细保留服装的几何形状和纹理。为了进一步提高面部身份保留和精细细节恢复能力,我们提出了一种头部特征金字塔编码方案,以聚合头部区域的多尺度特征。大量实验表明,我们的LHM模型能够在数秒内生成合理的可动画人体,无需对脸部和手部进行后处理,在重建精度和泛化能力方面均优于现有方法。
方法与模型
1. 概述
给定输入的 RGB 人体图像 ,我们的目标是在数秒内重建一个可动画的 人体化身。该化身通过三维高斯 splatting(3DGS)表示,支持实时、逼真的渲染和姿态控制动画。为实现这一目标,我们提出了大型可动画人体重建模型(LHM),这是一种基于前馈变压器的架构,可直接从单张图像预测规范的 化身。
图2. 所提出的概述。我们的方法从输入图像中提取人体和头部图像标记,并利用所提出的多模态人体-头部变压器(MBHT)将3D几何人体标记与图像标记进行融合。在基于注意力的融合过程之后,几何人体标记被解码为高斯参数。
受近期多模态变压器 [11] 的启发,我们设计了一种多模态身体 - 头部变压器(MBHT),以有效整合几何和图像特征。如图 2 所示,我们的框架处理由源图像、目标视图图像、前景掩码、SMPL - X 姿态参数和相机矩阵组成的训练对。
所提出的 MBHT 采用注意力操作来整合三种类型的令牌:几何令牌、身体图像令牌和头部图像令牌,其中几何令牌可以有效地关注其他令牌,实现局部和全局细化。此外,身体和头部令牌通过部分感知变压器进行交互,确保在不同身体区域上实现平衡的注意力分配。
在基于注意力的令牌融合过程之后,几何身体令牌被解码为每个高斯分布的参数,包括变形、缩放、旋转和球谐(SH)系数。在训练过程中,我们采用线性混合蒙皮(LBS)将规范化身变形到目标视图,其中光度损失和正则化损失指导学习过程。
2. 几何和图像特征编码
几何令牌源自 SMPL - X 表面点,对人体的结构先验信息进行编码。身体图像令牌从预训练的视觉变压器 [26] 中提取,对纹理和外观进行编码。头部令牌通过多尺度特征提取过程专门捕捉高频面部细节。
人体几何特征编码 利用SMPL - X的人体先验知识,我们通过对标准姿态网格进行策略性采样来初始化3D查询点。每个点都经过位置编码[38],然后通过多层感知器(MLP)投影以匹配Transformer的令牌通道维度:
其中对空间坐标应用频率正弦编码,是令牌维度。
身体图像令牌化 基于在以人体为中心的数据集上预训练的大规模视觉Transformer[26],我们将图像像素转换为与Transformer兼容的令牌。具体来说,我们采用在1000万张人体图像上预训练的冻结的Sapiens - 1B编码器来提取身体语义特征:
其中表示身体令牌数量。
头部特征金字塔令牌化 然而,由于人体头部在输入图像中仅占据小区域,并且在编码器中会进行空间下采样,关键的面部细节往往会丢失。为缓解这一问题,我们提出了一种头部特征金字塔编码(HFPE),它聚合了来自DINOv2[40]的多尺度特征:
其中使用深度级联和卷积融合来自第4、11、17和23个Transformer模块的特征,然后进行特征投影。这种设计捕捉了语义抽象的层次结构:早期模块保留高频纹理细节,而更深的层编码稳健的头部几何先验。
3. 多模态身体 - 头部Transformer
全局上下文特征 全局上下文令牌用于注意力模块的调制。为了捕捉用于注意力调制的全局上下文信息,我们将身体令牌作为输入,然后进行最大池化和两个MLP层以提取全局上下文嵌入:
多模态身体 - 头部Transformer模块 所提出的模型架构的核心设计是多模态身体 - 头部Transformer模块(MBHT - 模块),它能有效地将3D几何令牌与身体和头部图像特征融合,如图3所示。
图3. 所提出的多模态身体 - 头部Transformer模块(MBHT - 模块)的架构。
具体来说,全局上下文特征、图像令牌和查询点令牌会同时输入到MBHT - 模块中。为了增强对头部和身体特定特征的学习,3D头部点令牌将首先与头部图像特征融合,然后与身体点令牌连接,以与身体图像令牌进行交互。
其中和分别是中的个身体点和头部点。MM - T表示多模态Transformer模块[11],||表示按令牌连接(详情见补充材料)。
头部令牌收缩正则化 我们的实验表明,MBHT - 模块中的注意力机制严重依赖头部区域特征,这限制了它有效学习身体部分特征的能力。为解决这种不平衡,我们从MAE[13]中获得灵感,在训练期间随机屏蔽输入裁剪图像的头部区域。
具体来说,我们以到的比例对头部令牌应用空间掩码,鼓励模型通过增强对身体上下文的利用来进行补偿。这种正则化策略在保持头部重建保真度的同时提高了身体部分的自注意力能力。
3DGS参数预测 经过个MBHT - 模块后,一个MLP头预测3DGS参数:
其中表示相对于标准SMPL - X的残差位置偏移。
4. 损失函数
我们的训练目标将来自自然视频序列的光度监督与规范空间中的正则化约束相结合。完整的优化框架使得无需真实值 监督即可学习可动画化的化身。
4.1. 视图空间监督
给定预测的 3DGS 参数 ,我们首先使用线性混合蒙皮(Linear Blend Skinning,LBS)将规范化身转换到目标视图空间。然后,通过可微的散点渲染对转换后的高斯基元进行渲染,以在目标相机参数 下生成 RGB 图像 和 alpha 掩码 。为了更好地对衣物变形进行建模,我们使用了扩散体素蒙皮 [48]。
视图一致性监督在视图空间中包含三个部分:
在我们的实现中,损失权重平衡了重建方面: 用于直接颜色监督, 用于几何对齐, 用于保留高频细节。
4.2. 规范空间正则化
虽然光度损失在目标视图空间中提供了有效的监督,但由于单目重建的不适定性,规范表示仍然约束不足。当将化身变形为新姿势时,这种局限性表现为变形伪影。为了解决这一根本挑战,我们引入了两个互补的正则化项,以在规范空间中强制执行几何一致性。
高斯形状正则化 我们应用尽可能球形损失来惩罚高斯基元中的过度各向异性:
其中 表示协方差矩阵,在保留必要形状变化的同时,有效地抑制针状椭球体。
位置锚定 为了保持身体表面的合理性,我们引入尽可能接近损失,通过铰链距离约束鼓励高斯位置接近其 SMPL - X 初始化位置:
其中 表示一个经验确定的阈值(在实践中为 5.25 厘米),它允许局部调整,同时防止灾难性漂移。
组合的规范正则化操作如下:
总之,我们的复合训练目标将光度保真度保留与几何正则化相结合,公式如下:
实验与结果
1. 实现细节
野外训练数据 我们从公共视频库收集的个初始人体运动素材样本中精心整理出一个包含301,733个单人视频序列的大规模数据集。我们的多阶段过滤流程通过人工检查和自动度量阈值,去除包含多人交互、面部遮挡或低质量帧的序列。
合成数据增强 为解决自然视频中的视角偏差问题,我们使用来自三个来源的合成人体扫描数据来补充训练: [12]、Human4DiT [52]和RenderPeople(详情见补充材料)。
预处理流程 我们采用SAMURAI [62]来提取视频序列中的前景掩码。对于SMPL - X参数估计,我们利用Multi - HMR [4]来估计姿态和形状参数。
训练配置 我们的实现使用AdamW [27]优化算法,初始学习率为。我们采用混合精度训练,使用动态损失缩放,在处进行梯度裁剪,并使用进行权重衰减正则化。分布式训练在NVIDIA A100集群上进行次迭代——32个GPU用于模型(每个GPU 16个样本),64个GPU用于10亿参数变体(每个GPU 8个样本)。总训练时间分别达到78、112和189小时。在训练期间,我们从一个视频序列中随机采样一个源视图图像和四个目标视图图像。
2. 与现有方法的比较
单图像人体重建 我们将LHM与四种单视图图像人体重建的基线方法进行评估比较。GTA [65]和SIFU [66]分别采用递归优化循环和像素对齐特征提取,通过连续逼近步骤专注于几何细化。PSHuman [29]结合多视图扩散和局部ID扩散来提高多视图人体RGB和法线图像中面部特征的质量,随后进行多视图网格重建。DreamGaussian [54]利用二维扩散模型的分数蒸馏采样(SDS)[47]来提取三维表示。虽然它们的渐进式高斯致密化策略将每个资产的收敛时间缩短至约2分钟,但这仍比实时要求慢几个数量级。
表1比较了200个合成数据集上基线方法在四个指标上的定量结果:峰值信噪比(PSNR)、结构相似性指数(SSIM)、学习感知图像块相似度(LPIPS)和通过ArcFace [10]嵌入空间中的L2距离测量的面部一致性(FC)。值得注意的是,为了进行公平比较,我们报告的是在与基线方法相同的合成数据集上训练的模型的指标。
关于定性结果,如图4所示,视觉比较突出了我们的方法在抑制过度平滑等常见伪影的同时,保持与输入对齐的特征的能力。
图 4. 在 DeepFashion [33] 和自然图像上的单视图重建比较。LHM 实现了卓越的外观保真度和纹理清晰度,在面部细节和服装褶皱方面尤为明显。
单图像可动画人体重建 我们将LHM与两种从单视图图像重建可动画人体的基线方法进行了评估。第一种基线方法是En3D [36],它使用基于物理的二维数据以及法线约束雕刻技术在规范空间中生成三维人体模型。第二种基线方法AniGS [49],利用多视图扩散模型创建规范人体图像,并采用高斯溅射(4DGS)优化来解决不同视图中的不一致问题。
在评估中,我们使用了从数据集验证子集中选取的200个自然场景视频序列。具体而言,我们将每个视频的第一帧正视图图像作为输入,并使用前景分割掩码将合成动画与相应的真实序列进行比较。如表2所示,我们的方法优于基线方法,在动画序列中展现出了卓越的渲染质量。与最佳基线方法AniGS相比,我们的方法在峰值信噪比(PSNR)、结构相似性指数(SSIM)、局部感知图像相似度(LIPIS)和特征一致性(FC)指标上分别取得了3.322、0.059、0.063和0.018的性能提升。如图5所示,与基线技术相比,我们的方法产生的动画结果更加准确和逼真。更多结果可在补充材料中找到。
图5. 野外序列上的单视图可动画人体重建比较。LHM比基线方法产生更准确、更具照片真实感的动画结果。请注意,AniGS的结果与输入图像不符。
3. 消融研究
模型参数可扩展性 为了验证我们的轻量级人体模型(LHM)的可扩展性,我们通过缩放层数来训练参数数量不断增加的变体模型。表2比较了不同模型容量下的性能。我们的实验表明,增加模型参数数量与性能提升相关。图6展示了LHM - 0.5B和LHM - 1B的比较,其中较大的模型实现了更准确的重建,尤其是在面部区域。
图6. 模型设计和参数的消融研究。
数据集可扩展性 为了评估数据可扩展性,我们使用从原始视频训练数据集中分层随机抽取的子集(10K、50K、100K)进行了对照实验。表3表明,仅使用合成数据集会导致模型泛化能力较差。引入自然场景数据集显著提高了模型在自然场景测试中的通用性和性能。此外,更大的数据集规模会产生更好的模型结果,尽管随着数据集规模的增加,性能提升的速度会逐渐降低。表5展示了数据集可扩展性的消融研究。
表5. 数据集可扩展性的消融研究。
Transformer模块设计 表4展示了我们Transformer模块设计的定量结果。与普通的多模态Transformer(MM-transformer)模块相比,我们提出的Transformer模块在峰值信噪比(PSNR)、结构相似性指数(SSIM)、局部感知图像相似度(LIPIS)和特征一致性(FC)指标上分别提高了1.576、0.017、0.056和0.011。此外,收缩正则化提高了我们模型的整体性能,尽管面部一致性略有下降。图6展示了普通MM-transformer与我们提出的BH-Transformer模块的定性比较结果。
结论
在这项工作中,我们介绍了轻量级人体模型(LHM),这是一种前馈模型,可在数秒内从单张图像中重建可动画化的3D人体。我们的方法利用多模态Transformer和头部特征金字塔编码方案,通过注意力机制有效融合3D位置特征和2D图像特征,实现跨几何和视觉领域的联合推理。我们的模型在大规模视频数据集上进行训练,并使用图像重建损失,对各种现实场景表现出强大的泛化能力。在合成数据集和真实场景数据集上的大量实验表明,LHM实现了最先进的重建精度、泛化能力和动画一致性。