🌐 社群导航
🔗 点击加入➡️【AIGC/LLM/MLLM/3D/自动驾驶】 技术交流群
最新论文解读系列
论文名:Single Image Iterative Subject-driven Generation and Editing
论文链接:https://arxiv.org/pdf/2503.16025
开源代码:暂无
导读
从特定主体的图像进行个性化图像生成和图像编辑处于研究前沿。当只有该主体的少量图像,甚至只有单张图像时,这一任务尤其具有挑战性。常见的个性化方法是概念学习(concept learning),它可以相对快速地将主体融入现有模型,但当主体图像数量较少时,生成图像的质量往往会迅速下降。通过预训练编码器可以提高图像质量,但训练会将生成限制在训练分布范围内,并且耗时较长。在不进行训练的情况下,从单张图像实现个性化图像生成和编辑仍然是一个困难且有待解决的挑战。在此,我们提出了SISO,一种基于优化与输入主体图像相似度得分的全新免训练方法。具体而言,SISO迭代生成图像,并基于与给定主体图像的相似度损失对模型进行优化,直到达到令人满意的相似度水平,从而可以对任何图像生成器进行即插即用式的优化。我们使用多样化的个人主体数据集,在图像编辑和图像生成两项任务中对SISO进行了评估,结果表明,与现有方法相比,SISO在图像质量、主体保真度和背景保留方面有显著提升。
简介
主体驱动的文本条件图像生成和编辑将提示条件的易用性与使用个性化元素创建视觉内容时提供的卓越视觉控制相结合。从广告到数字艺术,它对于创意表达至关重要,但当可用的个性化元素图像较少时,仍然是一项具有挑战性的任务。
图2. 用于图像生成的SISO工作流程。SISO通过基于预训练的身份度量IR和DINO进行迭代优化来生成图像。每次迭代时更新添加的低秩自适应(LoRA,Low-Rank Adaptation)参数,而模型的其余部分保持冻结。左图通过展示初始图像,以及第15、25和35次迭代步骤,显示了针对提示“一张狗的图像”进行主体驱动优化的过程。优化过程中与主体图像的相似度(顶部)增加。我们发现使用简单提示进行优化是有效的,因为优化后的模型即使在复杂提示下也能生成主体的新颖图像,无需进一步优化,如右图所示。
方法
我们介绍单图像单目标优化(SISO,Single Image Subject Optimization)方法,这是一种使用单张主题图像的主题驱动调节方法。SISO通过在推理时微调扩散模型来工作,使用在生成图像上计算的损失函数。具体来说,由于SISO在像素空间对图像进行操作,我们可以使用高质量的预训练模型来衡量对象相似度,并促使模型生成与所需主题相似的图像。这种方法与现有的通过预测噪声进行操作的方法不同,后者是在扩散模型训练期间采用的方式。
1. 预备知识:条件潜扩散
条件潜扩散模型(LDM)生成图像,其中是调节项,如文本。训练该模型通常是通过向图像添加噪声并学习预测所添加的噪声来实现的:。这里,是中间的含噪潜变量,是到步骤为止添加的噪声,表示可学习的权重。在许多个性化方法中,通过在训练期间遵循相同的目标来微调模型,即对潜变量的重建损失。在个性化任务中,会给定一组特定主题的图像,希望模型学习这些主题。在这里,我们假设只给定一张主题图像,并将其表示为。
图3. 用于图像编辑的SISO工作流程。与生成过程(图2)的主要区别在于:(1)使用扩散反演将输入图像映射到潜变量起始状态(底部);(2)添加了背景保留正则化项(公式3)
2. 单图像单目标优化(SISO)
SISO在推理期间使用生成的图像来计算损失,从而优化图像生成模型。通过在像素空间定义损失,我们能够使用高质量的预训练模型来衡量生成图像中的主题与输入图像中的主题之间的相似度。
单输入单输出(SISO)方法进行迭代操作(图2左)。我们首先随机初始化低秩自适应参数 ,并按照低秩自适应(LoRA)方法将其添加到扩散模型中。我们还为噪声潜变量 固定一个特定的种子,并使用确定性采样器。然后,在迭代过程的第 步,我们使用扩散模型生成一张图像 。生成的图像是可微且确定性的潜在扩散模型(LDM)的输出,因此,基于该图像计算的任何可微损失 都可用于将梯度反向传播回模型参数 。
为了保留主体身份,我们将 设置为主体相似度损失,该损失以生成的图像 和参考主体图像 作为输入,并计算图像间主体的相似度。然后,我们通过梯度下降步骤更新参数:
为简洁起见,此更新规则已简化。实际上,我们使用Adam优化器。更新模型参数后,我们迭代重复此过程。由于此迭代过程涉及生成格式良好的图像,而非有噪声的潜变量,因此可以以交互方式使用。用户可以根据每一步显示的优化图像观察并停止优化过程,或者可以使用标准的提前停止策略自动停止(见附录C)。
默认情况下,通过潜在扩散模型(LDM)的反向传播是在整个扩散过程中进行的,这显著增加了内存需求。我们的方法特别适用于仅需单步扩散的高效蒸馏加速变体。为了支持非蒸馏模型并降低计算成本,我们在经过几个去噪步骤后停止反向传播。例如,对于萨纳(Sana)模型,我们通过最后三个去噪步骤进行反向传播,我们发现这足以实现个性化。这可能是因为最后的扩散步骤主要用于细化局部外观细节。
我们现在详细讨论单输入单输出(SISO)方法如何用于(i)图像生成和(ii)图像编辑。
3. 主体驱动的图像生成
要使用单输入单输出(SISO)方法进行图像生成,我们需要两个输入:一个条件提示和主体的单张参考图像。我们将相似度损失定义为
其中 是优化步骤 生成的图像, 是在迪诺(DINO)和图像检索(IR)嵌入空间中的距离, 是校准超参数。图像检索(IR)和迪诺(DINO)适用于评估独立于背景影响的对象身份距离。在我们的损失函数中使用两个度量有两个目的。(i)由于“集成”效应,它们提高了性能;(ii)它们作为一种惩罚正则化形式,降低了基于单一度量进行优化时可能出现的模式崩溃风险。
训练简化。为了提高训练稳定性,我们发现使用简单提示生成简单图像是有益的,因为相似度度量在复杂场景中往往效果不佳。此外,我们观察到,使用较少的去噪步骤(甚至单步)进行训练就足以保证效率。
值得注意的是,即使使用简单提示和最少的去噪步骤进行训练,优化后的低秩自适应(LoRA)权重也可用于使用不同提示和更多去噪步骤进行推理,以提高质量。
这一见解启发了一种处理详细场景的两阶段方法:(1)首先,使用简单提示和较少的去噪步骤进行优化,然后(2)使用微调后的模型生成具有更复杂提示和额外去噪步骤的图像。如图2(右)所示,在针对提示“一只狗的图像”优化低秩自适应(LoRA)权重后,无需进一步优化即可为各种提示生成已学习的主体。
表1. 每个主体使用单张参考图像进行主体驱动图像生成的两种基线方法的比较。我们评估身份保留(迪诺(DINO)、图像检索(IR))、提示遵循度(对比语言 - 图像预训练(CLIP - T))和自然度(弗雷歇 inception 距离(FID)、核 inception 距离(KID)、条件最大平均差异(CMMD))。
表2. 使用三种骨干模型(SDXL-Turbo、Flux Schnell和Sana)比较SISO与Dreambooth在使用单张参考图像进行主体驱动图像生成方面的表现。SISO在保持图像保真度的同时提高了对提示词的遵循度。
4. 主体驱动的图像编辑
在主体驱动的图像编辑中,模型将给定图像 的主体与参考图像 进行替换,同时关键地保留背景,这与图像生成不同,在图像生成中,背景与提示词的连贯性足够即可。此外,编辑图像需要将其转换到扩散模型的领域(见图 3)。
我们首先使用 ReNoise 反演进行反演,该方法能产生可靠的反演结果(附录 A 节中有更多细节)。设 为 的反演图像。为了保留背景,我们首先通过对图像 进行分类,并使用 Grounding DINO 进行目标检测以识别同一类别的目标,从而生成一个主体掩码 。然后,我们使用 SAM从检测到的边界框中提取分割掩码。背景损失定义如下:
其中 是反主体掩码,即主体的背景。直观地说,这种损失是对保持原始图像 背景的一种惩罚。总体而言,主体驱动的图像编辑损失为:
其中 是一个超参数。我们使用迭代推理时间优化技术来优化该损失。
实验
基准数据集和评估协议。我们使用来自 ImagenHub的基准数据集和实验协议。对于主体驱动的图像编辑,他们的设置包含 154 个样本,每个样本都有来自不同类别的 22 个独特主体之一。这些主体包括动物(猫、狗)和日常物品,如背包、太阳镜或茶壶。主体图像取自 DreamBooth。对于主体驱动的图像生成,设置包括 150 个提示词,有 29 个具有相似类别的独特样本主体。
实现细节。对于图像生成,我们使用了 SDXL-Turbo,它是 SDXL的蒸馏版本。对于图像编辑,我们使用了 SD-Turbo ,它是 Stable Diffusion 2.1的蒸馏版本。我们将损失校准超参数设置为 ,学习率设置为 。我们所有实验的分辨率均为 。
基线方法。由于我们的任务是使用参考主体的单张图像高效地适配预训练的图像生成器,因此我们将 SISO 与无需训练编码器学习即可运行的基线方法进行比较。对于图像生成,我们与 AttnDreamBooth进行了比较。它通过一个三阶段过程对 DreamBooth进行了改进,优化了文本嵌入、交叉注意力层和 U-Net。我们还与使用语义保留损失的 ClassDiffusion进行了比较。对于图像编辑,我们使用了采用掩码潜在融合和外观适配的 SwapAnything。上述所有方法都使用概念学习来描绘主体,通常需要多达 20 张主体图像才能获得准确的性能。然而,在这里,我们使用单张图像来使用这些方法。我们还与 TIGIC 进行了比较,TIGIC 是一种在去噪过程中使用注意力融合策略的无训练技术。
表 3. 主体驱动的图像编辑。所有实验每个主体使用一张参考图像。我们报告了身份保留(DINO、IR、CLIP-I)、背景保留(LPIPS)和自然度(FID、KID、CMMD)。
表4. 图像生成的消融实验。我们报告了身份保留(DINO、IR)和提示遵循度(CLIP-T)
表5. 图像编辑的消融实验。我们报告了身份保留指标(DINO、IR、CLIP-I)和背景保留指标(LPIPS)
1. 评估指标
身份保留。为了评估主体相似度,我们使用Grounding DINO裁剪主体,并使用以下方法进行比较:(i)用于实例相似度的DINO距离,尤其适用于动物;(ii)红外(IR)特征,在物品相似度方面很有效;(iii)CLIP - I,用于衡量类别级别的相似度。
自然度。为了评估图像的真实感,我们将生成的图像与参考集进行比较:生成任务使用普通Stable Diffusion的输出作为参考,编辑任务使用输入图像作为参考。我们计算三个指标:弗雷歇 inception 距离(FID)、核 inception 距离(KID)(在小数据集上表现更稳定)以及基于语义更丰富的CLIP评估的条件最大平均差异(CMMD)。
表6. 图像编辑(左)和生成(右)的用户研究。数值是我们的方法相对于领先基线的胜率(偏好案例的比例)。表示基于二项分布的均值标准误差(SEM)。
提示遵循度。在图像生成中,我们还使用CLIP-T(生成图像与输入提示之间的CLIP分数)来衡量与输入提示的对齐程度。
多样性。单图像概念学习往往会导致过拟合,由于重建损失限制了生成图像的多样性。为了量化这一点,我们计算生成图像与主体图像之间的均方误差(MSE)。
背景保留。对于图像编辑,在改变主体的同时保留背景至关重要。我们使用LPIPS来评估这一点,分数越低表示相似度越高。为了排除编辑区域,我们在计算LPIPS之前使用Grounding DINO和SAM对主体进行掩码处理。
2. 定量结果
图像生成。表1展示了图像生成的结果,将SISO与两种主体驱动的基线方法进行了比较,这两种基线方法通常从多个主体图像中学习,但在这里使用单张参考图像进行测试。SISO显著提高了自然度指标,这表明基线方法由于过拟合而降低了图像质量。此外,SISO在保持主体身份的同时提高了提示遵循度。这表明直接对齐图像,而不是将过程拆分为单独的优化和生成阶段,虽然在自然度或提示准确性上有轻微的权衡,但可以提高身份保留能力。
接下来,在表2中,我们进一步评估了不同模型在使用单张图像进行主体驱动生成时的适应性。据我们所知,DreamBooth是唯一可以轻松跨模型适应的基线方法,因为其他方法是专门为Stable Diffusion 2.1设计的。我们的结果表明,在FLUX和Sana的身份保留方面,我们的方法优于DreamBooth。尽管DreamBooth在SDXL-Turbo上实现了更好的身份保留,但这主要是由于过拟合,多样性指标(0.05对0.11)表明了这一点。
图4. 使用单张主体图像进行主体驱动图像生成的定性结果。主体图像显示在左侧,随后是给定的提示以及我们的方法和各种基线方法的生成结果。
图5. 使用单张主体图像进行主体驱动图像编辑的定性结果。每行显示一张要编辑的原始输入图像、一张参考主体图像,以及我们的方法SISO和四种基线方法的生成结果。
图像编辑。表3将我们的方法与主体驱动的图像编辑基线方法进行了比较。TIGIC在扩散过程中将主体融入图像,常常导致背景损坏(0.22对0.14)。SwapAnything学习主体概念,但当仅使用单张主体图像时,其身份保留能力显著下降(在DINO上为0.55对0.80)。此外,自然度指标较低,FID分数为185.7,这表明较少的输入主体图像会显著降低图像质量。
消融实验。在表4中,我们研究了提示简化。我们观察到一种权衡:简化提示可以提高遵循度,而使用完整提示进行直接优化则能更好地保留主体身份。
表5评估了背景保留损失(公式3)对编辑的影响。添加这种损失可以提高背景一致性(LPIPS:0.14对0.18),同时不影响身份保留。我们还评估了将DINO和IR集成使用的效果,这在略微降低背景一致性的情况下增强了身份保留能力(LPIPS:0.12对0.14)。
图6. 使用三种骨干模型进行主体驱动图像生成(单张参考图像)
用户研究。除了自动指标外,我们还进行了一项用户研究,以衡量身份保留、背景保留、提示遵循度和自然度。我们使用亚马逊机械土耳其人(Amazon MTurk)对100张图像进行评估,每张图像有五名评估者。完整细节见附录(B节)。我们分别进行了两项用户研究,一项针对编辑,一项针对生成,将我们的方法与每个任务中可用的最佳基线方法进行比较。
用户研究的结果见表6。对于编辑任务,TIGIC能更好地保留主体身份,因为它通常几乎是将主体复制粘贴到给定的输入图像中。这反映在SISO在自然度和背景保留方面获得了更高的分数,胜率分别为和。在生成任务中,我们看到基线方法在主体保留方面略有改进(胜率为47%)。然而,SISO生成的图像明显更自然(胜率为),并且显示出更好的提示遵循度(胜率为)。
3. 定性结果
我们首先展示我们的生成模型与流行基线模型相比的结果(图4)。我们在三个主体上评估了主体驱动的图像生成:一个毛绒玩具、眼镜和一只狗。只有我们的方法能正确地将毛绒玩具置于巴黎的场景中,而其他方法则对输入图像过拟合。文本反转(Textual Inversion,TI)避免了这个问题,但未能捕捉到主体特征。眼镜的情况也类似,除了我们的方法和TI之外,大多数方法都会保留背景元素,不过TI缺乏细节。我们的方法在生成多样化背景的同时保留了主体特征。在最后一行中,基线模型未能描绘出主体并遵循提示。
在图5中,我们通过学习主体概念、反转和重新生成图像来比较图像编辑的基线模型。在第一行中,我们的方法准确地保留了狼毛绒玩具,而基线模型要么融合不自然(TIGIC),要么泄露背景细节(SwapAnything),要么扭曲主体和背景(DreamBooth、TI)。在第二行中,我们的方法正确地替换了黑猫,尽管眼睛颜色略有不匹配,而基线模型则完全失败。在第三行中,所有方法的表现都更好,但我们的方法最能保留背景。
在图6中,我们展示了使用SDXL Turbo、FLUX Schnell和Sana模型,通过单张参考图像进行主体驱动的图像生成。DreamBooth是唯一能跨模型适配的基线模型,但在单张图像上训练时显示出几个局限性:(i)多样性低,生成的图像与主体非常相似(例如,SDXL和FLUX生成的狗,FLUX生成的猫);(ii)有伪影和不自然的属性(例如,SDXL和FLUX生成的猫);(iii)主体特征保留不佳(例如,Sana生成的狗)。
我们还使用各种随机种子评估了我们方法的稳定性(见附录中的图12和图13)。
总结
我们提出了SISO,这是一种新颖的优化技术,它使用单张主体图像,并通过利用预训练的图像相似度评分模型实现主体驱动的图像生成和主体驱动的图像编辑。我们表明,在所有先前的基线模型中,在现有的扩散模型中使用单张图像实现这种能力远未得到解决。虽然我们的方法在主体特征保留方面仍有改进空间,但它开辟了一个新的研究方向,可能使仅使用单张图像就能尽可能简单地实现图像生成器的个性化。