Adobe提出Visual Persona!全能视觉人物形象定制基础模型!

🌐 社群导航

🔗 点击加入➡️【AIGC/LLM/MLLM/3D/自动驾驶】 技术交流群

🔗 点击加入➡️【2-3月CCF投稿】交流群

数源AI 最新论文解读系列

论文名:Visual Persona: Foundation Model for Full-Body Human Customization

论文链接:https://arxiv.org/pdf/2503.15406

开源代码:https://cvlab-kaist.github.io/Visual-Persona

导读

最近,大规模生成模型在创建逼真图像方面取得了显著进展。这些模型的成功使得用户能够用自己的个人数据定制预训练模型。最近,受电影制作、书籍插画和虚拟/增强现实等各种实际应用的推动,此类方法开始关注人体数据。这些方法允许用户合成特定个体的新颖图像。

简介

我们提出了视觉人物形象(Visual Persona)模型,这是一个用于文本到图像全身人体定制的基础模型。给定一张自然场景中的单人图像,该模型能够生成由文本描述引导的多样化个人图像。与以往仅专注于保留面部特征的方法不同,我们的方法能够捕捉详细的全身外观,并与文本描述的身体结构和场景变化相匹配。训练这个模型需要大规模的配对人体数据,即每个个体有多个具有一致全身特征的图像,但这类数据极难获取。为了解决这个问题,我们提出了一个数据筛选流程,利用视觉 - 语言模型来评估全身外观的一致性,从而得到了包含  对人体图像、涵盖  个独特身份的视觉人物形象 -  数据集。为了实现精确的外观迁移,我们引入了一种基于预训练文本到图像扩散模型的变压器编解码器架构,该架构将输入图像划分为不同的身体区域,将这些区域编码为局部外观特征,并将其独立投影到密集的身份嵌入中,以调节扩散模型合成定制图像。视觉人物形象模型始终优于现有方法,能够从自然场景输入中生成高质量的定制图像。大量的消融实验验证了我们的设计选择,并且我们展示了视觉人物形象模型在各种下游任务中的通用性。

方法与模型

1. 视觉人物形象500K数据集

一个配对的人类数据集,即每个个体包含多张具有一致身份的图像,对于同时实现身份保留和文本对齐至关重要。然而,由于收集一致的全身人类配对存在挑战,以往的研究只能退而求其次,对每个个体仅使用一张图像进行训练 [72, 93]。在这项工作中,我们从大量未配对的人类图像集合中精心整理出了我们的配对人类数据集 Visual Persona - ,这些集合包含了同一人的视觉上不一致的图像。此外,我们为每张图像生成详细的描述,以将个体的身份与输入以及由文本提示驱动的个体内部差异区分开来。图 2 和表 1 展示了我们数据集的总体统计信息和范围。

图 2. 数据统计:我们精心整理的训练数据集 Visual Persona - 500K 由代表 10 万个个体的 58 万张图像组成。(a) 展示了每个个体的图像数量分布,超过 50% 的个体拥有四张以上的图像,并展示了来自同一个体的示例图像 - 描述对。(b) 基于面部属性(包括种族、年龄和性别)突出了个体的多样性,这些属性由 DeepFace [71] 进行估计。(c) 展示了身体结构的多样性,使用身体解析方法 [44] 将其分为五个类别——全身、面部、躯干、腿部和鞋子。

整理一致的面部身份。我们首先收集未配对的人类数据,每个个体包含多张图像。为了进一步确保面部身份的一致性,我们使用人脸识别模型 [13] 计算每对图像的面部嵌入之间的余弦相似度。然后,我们选择平均相似度得分最高的图像作为锚定图像,并丢弃与锚定图像相似度得分低于预定义阈值的任何图像。我们还会过滤掉面部无法识别、带有水印或重复的图像。为了保证图像质量,我们会丢弃最短边小于 1024 像素的图像。

整理一致的全身身份。从未配对的人类数据(仅保证面部身份一致)中,我们通过评估每个人是否穿着相同的衣服来进一步评估身体身份的一致性。具体来说,我们认为视觉语言模型(VLM)[1, 2, 5, 49,  是评估人体视觉一致性的简单而强大的工具。对于同一个体的每个图像子集,我们使用 LLAVA [49] 来评估子集中的个体是否穿着相同的衣服。一个简单的提示——“他们穿的衣服完全一样吗?”——会触发模型给出高精度的二元决策。如果模型对该个体的所有子集都给出肯定回答,则保留该个体;否则,将该个体从数据集中排除。总体而言,我们整理了一个包含  张全身配对人类图像的数据集,涵盖  个独特个体,称为 Visual Persona - 500K。附录 B 提供了整理方法的详细描述。

添加描述。我们的目标是将输入中个体的身份与文本提示中描绘的个体内部差异区分开来。为了实现这一目标,我们使用 Phi - 3 [1] 为每张图像生成包含与身份无关信息的详细文本描述。使用的提示是:“用一句话详细描述图像,重点关注面部表情、姿势、动作和周围环境。”值得注意的是,我们的数据整理和添加描述流程与任何现成的视觉语言模型(VLM)[1, 2, 5, 49, 52, 77, 83] 兼容。

2. 模型架构

给定一张人类图像和一个文本提示,我们的目标是将输入图像的全身外观迁移到由预训练的文本到图像(T2I)模型生成的定制图像中,同时保留其在图像质量和文本对齐方面的生成能力。先前的研究 [18 - 20, 46, 58, 59, 72,  通常利用预训练图像编码器(如 CLIP [62])的语义表示,通常通过线性投影层 [18, 20, 46, 59, 86, 89] 将它们映射到紧凑的身份嵌入中。然而,这些方法往往难以保留真实场景中人类输入的详细外观。

在本文中,我们引入了一种新颖的变压器编解码器架构[80],该架构适配于预训练的文本到图像(T2I)扩散模型,专门为全身人体定制而设计。我们将输入的人体分解为不同的身体区域,并将其作为单独的图像。然后,图像变压器编码器将每个身体图像编码为局部外观特征,而按身体部位划分的变压器解码器则将每个特征投影到相应的密集身份嵌入中。这些嵌入随后引导预训练的T2I模型合成多样化的定制图像,这些图像能准确保留输入的全身外观。整体架构如图3所示。

图3. 整体架构:我们的网络将输入的人体图像增强为身体区域,这些区域由图像变压器编码器编码为局部特征。按身体部位划分的变压器解码器通过交叉注意力将这些特征投影到可学习的身份嵌入中,随后进行自注意力和多层感知机(MLP)操作。经过次迭代后,这些嵌入被连接起来形成一个堆叠的身份嵌入。来自详细描述的身份嵌入和文本嵌入对预训练的T2I扩散模型进行条件约束,以合成具有输入身份特征的新图像。仅对按身体部位划分的变压器解码器和身份交叉注意力模块进行训练。

身体部位分解。图4概述了身体部位分解的过程。为了有效地将输入的人体外观转移到定制图像中复杂的身体结构上,扩散模型独立关注输入中的每个不同身体部位并将其映射到合成图像中的相应部位至关重要。为实现这一点,我们将输入图像(图4(a))进行增强处理,其中 、3分别代表高度、宽度和RGB通道,将其转换为个不同的身体图像。在这里,我们对输入图像应用前景掩码[30],以仅关注人体部分。具体而言,我们利用现成的身体解析方法[44]来解析身体区域(图4(b)),并将它们分为个类别(图4(c))。然后,我们提取每个类别的边界框坐标(图4(d)),从中裁剪出相应的区域,沿最大边进行零填充以保持图像比例,并将它们调整为原始输入大小(图4(e))。这将得到一个由单个图像组成的输入集,其中包括一张全身图像和张身体部位图像。请注意,可以代表任意数量的身体区域。在本文中,我们根据经验将设置为5,分别对应全身、面部、躯干、腿部和鞋子。表4展示了身体部位分解的有效性。

图4. 身体部位分解。

图像变压器编码器。为了详细保留外观,我们从单个图像的输入集中提取局部图像特征。具体来说,我们使用预训练的视觉变压器DINOv2[57]作为我们的图像编码器。与其他在图像 - 文本或类别对齐上进行弱监督训练的图像编码器不同,这些编码器关注图像的语义,而自监督的视觉变压器DINOv2[57]可以捕捉细粒度的局部特征,包括跨图像的结构和纹理信息[33, 91]。这使得DINOv2[57]特别适合我们保留视觉细节(如服装图案和纹理)的任务。具体而言,我们将输入集编码为一组图像特征,其中和分别代表每个特征的高度、宽度和通道维度。值得注意的是,我们没有使用预定义的类别标记CLS,而是利用完整的局部标记集来关注输入中的空间信息。

身体分区Transformer解码器。将输入特征映射到预训练的文本到图像(T2I)模型的一种直接方法是使用多层感知器(MLP)层,如先前的工作[18, 20, 46, 59, 86, 89]中所采用的方法。然而,如表4所讨论的,仅使用MLP不足以从复杂的输入特征(特别是野外人体图像)中捕捉关键视觉属性,并且倾向于将身体各部位的局部细节融合成全局外观。为了解决这个问题,我们提出了一种身体分区Transformer解码器,它将每个身体区域的局部特征投影到相应的密集身份嵌入中,从而保留详细的视觉外观。每个Transformer层由一个交叉注意力层、一个自注意力层和一个MLP层组成。

令表示每个身体图像的可学习隐藏身份嵌入,其维度与输出身份嵌入的维度相匹配。这里,和分别表示令牌长度和通道维度。我们强调,与先前将图像特征映射到少量令牌(通常为)的方法[18 - 20, 46, 58, 59, 72, 79, 82, 86, 89, 93]不同,我们设置,其中和表示DINOv2特征的高度和宽度。表5显示,密集嵌入保留了少量令牌可能会忽略的更精细的全身细节。对于第个输入身体图像和第个Transformer层,交叉注意力层将每个隐藏嵌入与其对应的来自第个身体图像的特征相连接。更新后的嵌入随后通过自注意力层,该层学习嵌入内部的关系。得到的嵌入进一步由MLP层处理,将其映射到输出嵌入,该输出嵌入递归地输入到下一个Transformer层。这个过程可以表示为:

其中LN表示层归一化。C - Att 表示交叉注意力层,其中被投影为查询,被投影为键和值。S - Att 表示自注意力层,其中被投影为查询、键和值。MLP指的是多层感知器层。经过次迭代后,我们得到精炼的身份嵌入。最后,这些嵌入沿着令牌长度进行拼接,形成堆叠的身份嵌入:

其中Concat 表示拼接操作。

解耦交叉注意力。给定,预训练的文本到图像(T2I)模型描绘目标图像,该图像与从文本提示导出的文本嵌入对齐。具体而言,我们采用解耦交叉注意力机制[89]。通过一个额外的可学习身份交叉注意力模块进行处理,其中针对的目标查询关注从投影得到的键和值。文本嵌入通过文本交叉注意力模块合并,投影为键和值,其中和分别表示令牌长度和通道维度。输出的公式如下:

其中是文本或身份交叉注意力模块,是加权标量。

3. 训练

我们仅训练身体分区的变压器解码器和身份交叉注意力模块,同时冻结所有其他参数,包括图像变压器编码器、身体解析模型和文本到图像(T2I)扩散模型。在训练时,我们利用配对的人类数据集Visual Persona - ,其中个体的输入集引导冻结的扩散模型渲染同一人的另一张图像,该图像与目标提示对齐。训练目标通过最小化预测误差来制定:

其中是前向传播中添加的噪声,表示在时间步的含噪潜在变量。通过扩散模型进行反向传播,更新身体分区的变压器解码器和身份交叉注意力模块中的参数。请注意,先前的工作是在和的相同图像上进行训练的,这导致在与身份无关的元素(如背景、光照和构图)上出现过拟合[19, 20, 58]。

实验与结果

1. 实验设置

数据集。我们在两个人类数据集上评估了我们的方法:SSHQ [16]和PPR10K [47]。SSHQ [16]包含高质量的全身图像,展示了各种身份、姿势和服装,这些图像来自DeepFashion [50]和InFashAI [21]中的非洲图像。PPR10K [47]包含大量野外人类图像,具有显著的几何变化和多样的视角。我们从SSHQ和PPR10K测试分割[72]中分别随机选择了50个人进行测试。为了评估文本对齐,我们使用ChatGPT [2]为Dreambooth [64]中的活体对象扩充了17个提示,以包含面部表情、姿势、动作和周围环境。在评估时,所有方法为每个输入图像和提示对生成4个样本,每个评估数据集产生3400个样本。评估数据的更多详细信息见附录C.2。评估指标。正如[11, 34, 43, 48, 76]和附录C.3中所讨论的,为定制图像生成获得可靠的定量评估具有挑战性,因为它们严重依赖人类偏好。在本文中,我们使用Dreambench++ [60](一种基于GPT [2]的自动化、符合人类偏好的基准)评估我们的方法。

为了评估身份保留情况,我们采用了Dream - bench++ [60],促使GPT [2]评估生成图像与输入图像在面部身份、服装类型、设计、质地和颜色方面的差异,记为D - I。为了评估文本对齐情况,我们指示GPT评估姿势、动作、周围环境、构图和整体质量,以确保与提示信息对齐,记为D - T。每个指标的评分范围为0(无相似性或相关性)到9(近乎完美的相似性或相关性)的整数。由于我们的目标是在D - I和D - T上都获得高分,参照文献[6, 85],我们还计算了每个样本的调和平均值,记为D - H。由于当主体远离前景时,GPT难以检测面部表情,我们还针对面部表情的文本对齐情况进行了人工评估,具体细节见附录C.3。

人工评估设置。我们严格按照ImagenHub评估协议[41]进行了一项严谨的人工研究。每个生成的样本及其输入图像和文本提示通过两个指标进行评估:语义一致性(SC)和感知质量(PQ),两者的评分均为 。对于SC,0表示文本或身份与生成样本不匹配,0.5表示两者部分匹配,1表示完全匹配。这确保了评估的平衡性,避免对文本对齐或身份保留产生偏向性。PQ衡量生成图像的视觉真实感,分数越高越好。最终得分的计算公式为 。参照文献[28],我们招募了八名人工评估员,并根据ImagenHub [41]指南对他们进行了培训。八名评估员被分为两组,每组评估由三种方法使用相同输入图像和提示生成的150个样本,以确保评估的一致性。更多细节见附录C.4。

2. 结果

比较。图5和表2总结了与最先进的定制模型[46, 82, 89, 93]的定性和定量比较。如图5所示,面部定制模型[46, 82, 89]表现出较强的文本对齐能力,但仅限于面部领域,而全身定制模型往往无法保留输入的详细外观,并且生成的输出偏向前景。相比之下,可视化角色(Visual Persona)在适应文本提示驱动的复杂身体变形和场景变化的同时,能准确保留输入的全身外观。表2进一步显示,可视化角色(Visual Persona)在身份保留(D - I)方面显著优于以往方法,同时保持了相当的文本对齐(D - T),最终实现了最佳调和均值(D - H)。更多结果见附录E。

图5. 在PPR10K [47]上的定性比较:与之前专注于面部身份保留[46, 82, 89]或未能捕捉输入详细外观[89, 93]的工作相比,Visual Persona能够准确保留全身外观,同时根据文本提示生成多样化的图像。

人工评估。我们在图6中展示了人工评估结果。与以往偏向文本对齐的方法[89]或生成人工合成输出的方法[93]不同,可视化角色(Visual Persona)在同时衡量身份保留和文本对齐的SC指标以及评估图像质量的PQ指标上都超越了这些方法,取得了最高的总体得分。

图6. 人工评估。

与StoryMaker的详细比较。在图7和表3中,我们详细比较了Visual Persona和StoryMaker,后者是与我们同时期开展的工作。如图7(a)和表3(a)所示,StoryMaker依赖于使用未配对数据集进行重建训练,这往往会导致对人物位置、姿势和面部表情过度拟合。相比之下,我们的方法在精心挑选的配对数据集上进行跨图像训练,能够实现包括姿势和面部表情在内的大变形,并与给定文本对齐。如图7(b)和表3(b)所示,StoryMaker使用语义编码器对两部分输入进行编码,然后使用重采样器和线性层对其进行压缩,这往往会丢失服装的局部细节,并且无法分离不同的身体部位。相比之下,我们的细粒度分解和Transformer编解码器能更好地保留全身身份的各个部分。这也使得StoryMaker仅限于上衣虚拟试穿(Virtual Try-On,VTON),而我们的方法支持更灵活的VTON,这将在4.4节进一步讨论。此外,如图7(c)所示,StoryMaker生成的输出往往看起来很假,这可能是由于数据集质量的原因,而我们的方法得益于精心挑选的数据集质量,能够生成逼真的布料纹理。

图7. 故事生成器(StoryMaker)[93](橙色)与可视化角色(Visual Persona)(绿色)的比较,包括全图和放大图:与故事生成器(StoryMaker)相比,可视化角色(Visual Persona)能够实现较大的变形,包括姿势和面部表情的变化,保留服装细节,并生成逼真的服装纹理。

3. 消融实验

组件分析。图8和表4总结了身体分区变压器解码器不同配置的有效性。(I)展示了仅在DINOv2 [57] 特征上使用多层感知机(MLP)层的结果,而(II)展示了添加自注意力层后的结果。(III)表示添加交叉注意力层的结果,该层将特征映射到可学习的身份嵌入上。与(I)和(II)相比,它们无法从冗余的输入特征中提取详细的外观信息,(III)表明变压器增强了身份保留能力(D - I:6.66对比7.47),但牺牲了文本对齐能力(D - T:7.11对比6.13)。与(III)相比,(IV)表明身体部位分解在保留变压器身份保留能力的同时(D - I:7.47对比7.30),显著提高了文本对齐能力(D - T:6.13对比6.67),实现了最高的D - H值(6.85)。这表明,将身体区域分解对于扩散模型分别处理每个部分至关重要,从而使定制图像中能够呈现多样化的身体结构。

图8. 组件分析。

身份嵌入令牌长度分析。表5展示了关于身份嵌入令牌长度  的消融实验,结果表明,增加令牌长度会按比例增强身份保留能力(D - I),同时保持文本对齐能力(D - T)一致,最终提高调和平均值(D - H)。这强调了密集身份嵌入对于全身身份保留的重要性,使我们的方法与之前将输入特征压缩成小令牌嵌入(通常为 )的工作  有所不同。

4. 应用

多人定制。图9显示,Visual Persona支持多人定制,而无需像StoryMaker [93] 那样进行额外的多人训练。这是通过简单的推理修改实现的,包括将多个输入的身份嵌入进行拼接,使用文本交叉注意力为每个人提取前景掩码,并使用这些掩码增强身份交叉注意力。StoryMaker在生成多人之间的互动(例如两人之间的眼神交流)方面存在困难。这是因为StoryMaker以重建方式进行训练,这往往会导致从输入图像中过度拟合与身份无关的属性(例如面部姿势、身体姿势、面部表情),并导致输出偏向前景。相比之下,Visual Persona采用跨图像训练来减轻过拟合,生成个体之间自然的互动,并无缝融入生成的场景中。此外,StoryMaker常常无法准确保留每个人的全身外观,而Visual Persona得益于所提出的变压器架构,能更好地保留这些信息。

图9. StoryMaker [93](橙色)和Visual Persona(绿色)在多人定制方面的比较:与StoryMaker相比,Visual Persona在保留每个人全身身份的同时,生成了更真实的多人之间的互动。值得注意的是,Visual Persona没有像StoryMaker那样使用多人数据集进行训练,但我们的方法通过简单的推理修改实现了多人定制。

虚拟试穿(VTON)。尽管Visual Persona并非专为VTON设计,但图1(a)表明,与现有的VTON模型 [10, 25, 32, 38, 55, 87, 94, 95] 不同,它自然支持文本引导的VTON。现有模型由于缺乏基于文本的控制,仅限于进行小范围的场景和姿势变化。具体来说,给定一张用于面部身份的输入图像和几张用于服装的额外图像,我们应用一个身体解析模型 [44] 来分割面部和服装,并将它们作为输入提供给我们的模型。在这个实验中,未使用全身图像。

在图10中,我们还将我们的方法与Left [94](最先进的虚拟试衣(VTON)方法)和StoryMaker [93]进行了比较。Left仅支持上衣和下装,并且需要顺序处理,这通常会混淆服装特征。StoryMaker仅支持上衣,因为它仅将输入分解为两部分,即面部和整个身体。此外,StoryMaker在处理姿势变化和保留面部特征方面常常存在困难。相比之下,视觉人物模型(Visual Persona)通过并行的身体部位分解实现了细粒度的虚拟试衣,并且在大姿势变化下能更好地保留全身特征,这得益于跨图像训练和Transformer架构。

图10. Leffa [94](蓝色)、StoryMaker [93](橙色)和Visual Persona(绿色)在虚拟试穿(VTON)方面的比较,包括整体和放大图像:与Leffa和StoryMaker相比,Visual Persona实现了更灵活的VTON,包括上衣、下装和鞋子,保留了每件服装的细节,并允许精确的姿势控制。

人物风格化。图1(b)和图11(a)展示了我们的视觉人物模型(Visual Persona)基于文本提示实现的人物风格化结果,在有效改变图像风格的同时保持了全身外观。

角色定制。图1(c)和图11(b)展示了视觉人物模型(Visual Persona)在处理训练集未包含的域外输入(例如动画领域)时的鲁棒性,成功生成了视觉上一致的针对动漫风格输入的输出。

图11. 人物风格化和角色定制。

图12. 部位引导的全身生成:用户可以从人物图像中选择单个身体部位作为输入,让预训练的文本到图像(T2I)扩散模型合成其余身体部位,而无需额外训练。

局部引导的全身生成。图12展示了局部引导的全身生成的定性结果。在这个实验中,我们仅使用给定人物图像中的一个身体部位图像作为输入,并让预训练的文本到图像(T2I)扩散模型合成其余身体部位。结果表明,视觉人物模型(Visual Persona)在保留给定身体部位的同时,能够有效地生成多样化的人物图像,而无需额外的训练,这暗示了其在时尚广告等未来应用中的潜力。

结论

在本文中,我们介绍了一种用于全身人物定制的基础模型,称为视觉人物模型(Visual Persona)。为了解决获取配对人物数据集的困难,我们提出了一个数据整理流程,从大量未配对的人物图像中收集具有全身一致性的配对人物数据。我们进一步引入了一种Transformer编解码器架构,将其适配到预训练的文本到图像(T2I)扩散模型中,通过将详细的全身外观投影到密集的身份嵌入中,实现精确的视觉迁移,从而引导T2I模型生成定制图像。综合来看,视觉人物模型(Visual Persona)在基于GPT的评估和人工评估中均超越了当前最先进的定制方法。我们还强调了我们的方法在各种下游任务中的通用性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值