中山大学提出ConsisLoRA:革新风格迁移技术,解决内容一致性与风格对齐难题!

🌐 社群导航

🔗 点击加入➡️【AIGC/LLM/MLLM/3D/自动驾驶】 技术交流群

🔗 点击加入➡️【2-3月CCF投稿】交流群

最新论文解读系列

论文名:ConsisLoRA: Enhancing Content and Style Consistency for LoRA-based Style Transfer             

论文链接:https://arxiv.org/pdf/2503.10614 

开源代码:https://consislora.github.io 

导读

风格迁移是指将参考图像的风格迁移到目标图像的内容上。最近基于LoRA(低秩自适应)的方法在有效捕捉单张图像的风格方面显示出了潜力。然而,这些方法仍然面临着显著的挑战,如内容不一致、风格不对齐和内容泄漏等问题。在本文中,我们全面分析了标准扩散参数化(学习预测噪声)在风格迁移背景下的局限性。为了解决这些问题,我们引入了ConsisLoRA,这是一种基于LoRA的方法,通过优化LoRA权重来预测原始图像而非噪声,从而增强内容和风格的一致性。我们还提出了一种两步训练策略,将从参考图像中学习内容和风格的过程解耦。为了有效捕捉内容图像的全局结构和局部细节,我们引入了一种逐步损失过渡策略。此外,我们还提出了一种推理引导方法,能够在推理过程中对内容和风格强度进行连续控制。通过定性和定量评估,我们的方法在内容和风格一致性方面有显著改进,同时有效减少了内容泄漏。

简介

扩散模型已成为文本到图像合成的强大范式,在可控生成任务中取得了重大突破,包括个性化生成、图像编辑和图像风格化。尽管取得了这些进展,但由于风格本质上的复杂性和不确定性,风格迁移仍然具有挑战性。风格迁移的目标是将内容图像转换为与风格参考图像的期望风格相匹配。

预备知识

潜在扩散模型。潜在扩散模型(LDM)利用自动编码器来提供低维潜在空间。编码器将图像映射到潜在表示,解码器从该潜在表示中重建图像,即。去噪扩散概率模型(DDPM)用于在自动编码器的潜在空间内训练模型。

图片

图2. 现有基于LoRA的方法遇到的三个重大挑战示例:1)内容不一致:生成图像的结构与内容图像的结构不一致;2)风格不匹配:生成图像的风格与风格图像的风格不匹配;3)内容泄漏:风格图像的内容意外地泄漏到生成图像中。

扩散模型的参数化。DDPM引入了两种用于模型训练的目标函数参数化方法:预测和预测。在LDM的背景下,目标函数定义如下:

其中去噪网络和的任务分别是,在给定特定时间步的情况下,从加噪潜在表示中预测添加的噪声和原始潜在表示。预测通常用作训练目标,因为根据经验,它能产生高质量且多样化的视觉输出。

B - LoRA。在研究了用于LoRA优化的SDXL架构后,B - LoRA发现,联合优化两个特定变压器块和的LoRA权重可以有效地分离单张图像中的内容和风格。遵循DreamBooth - LoRA,使用扩散损失(公式1)对模型进行微调以重建输入图像。训练完成后,学习到的两个LoRA可以独立使用或一起用于各种风格化任务,如风格迁移和基于文本的风格化。

方法

1. 用于风格迁移的预测分析

如公式1所定义的预测损失,通常用作训练或微调扩散模型的目标函数。然而,如图2所示,当将预测应用于风格迁移时,会导致三个重大问题:1)生成图像的结构与内容图像的结构不一致;2)生成图像的风格与风格图像的风格不匹配;3)风格图像的内容泄漏到生成图像中。

图片

图3. 不同扩散模型参数化方法在不同时间步间隔上的平均损失比较。

这些问题可归因于预测固有的对低级局部细节的关注,而非对高级结构和风格的关注。在图3中,我们展示了预测在不同时间步阶段的平均损失值,表明损失在小的时较高,并随着的增加而减小。这种模式的出现是因为在大的时,加噪图像接近纯噪声,简化了模型预测噪声的任务。相反,在小的时,加噪图像与原始图像非常相似,模型必须辨别精细细节才能有效地预测噪声。因此,预测在早期时间步强调低级特征,而在后期时间步忽略高级特征。鉴于风格迁移需要捕捉内容图像的全局结构和风格图像的整体风格,预测对于此应用并非最优。

2. ConsisLoRA

我们的方法基于B-LoRA,该方法从单张图像中联合学习与StableDiffusionXL(SDXL)内两个特定模块相对应的内容和风格低秩自适应(LoRA)。我们引入了ConsisLoRA,这是一种基于LoRA的方法,旨在增强风格迁移中的内容和风格一致性。ConsisLoRA基于三个主要思想。首先,我们用预测损失取代标准的预测损失,以解决4.1节中详述的挑战。其次,我们引入了一种两步训练策略,该策略能更有效地分离风格图像中的内容和风格表示。第三,我们提出了一种逐步损失过渡策略,以同时捕捉内容图像的整体结构和精细细节。所提出的ConsisLoRA的概述如图4所示。

图片

图4. 方法概述。我们用预测取代标准的预测,用于训练风格和内容LoRA。(左下角)为了训练内容LoRA,我们提出了一种损失过渡策略,以捕捉内容图像的全局结构和局部细节。(顶部)为了从风格图像中解开风格和内容的学习,我们引入了一种两步训练策略:首先,使用所提出的损失过渡学习一个内容一致的LoRA,然后,在固定内容LoRA的同时训练一个风格LoRA。

内容和风格一致的LoRA。正如4.1节所分析的,预测损失倾向于关注低级局部细节,而不是高级结构和风格,这使其不适用于风格迁移。为了解决这个问题,我们建议用预测(公式2)取代传统的预测(公式1),以优化内容和风格LoRA。重要的是要注意,我们并没有直接将U型网络(U-Net)的输出从预测噪声改为预测潜在变量。相反,我们通过预测噪声推导出预测潜在变量

其中和表示方差调度。然后,我们将预测潜在变量与原始潜在变量之间的差异最小化,如下所示:

如图3所示,与预测相比,所提出的损失在值较大时表现出较大的值,在值较小时表现出较小的值。这种行为的出现是因为预测损失被一个因子缩放,该因子在大时间步长时变得很大。这表明,与预测相比,预测能更有效地强调高级特征,因为这些特征主要在大时间步长时确定。

内容LoRA的逐步损失过渡。在图15(见附录E)中,我们比较了使用预测和预测的输出。如图所示,虽然预测能更准确地捕捉内容图像的全局结构,但它偶尔会无法保留一些局部细节。为了解决这个问题,我们为内容LoRA提出了一种逐步损失过渡策略。最初,我们在部分训练步骤中使用预测来优化LoRA权重,然后在其余步骤中切换到预测。如图15所示,这种方法能有效地保留全局结构和局部细节。我们还尝试了从预测到预测的渐进过渡(例如,在时间步长上进行线性变化),但未观察到性能提升。重要的是,这种逐步损失过渡不适用于风格LoRA,因为我们的实证结果表明,在风格LoRA优化中使用预测会无意中捕捉到局部内容细节,从而导致内容泄漏问题(见5.4节)。

分离风格与内容以实现风格低秩自适应(Style LoRA)。为了有效地将参考图像中风格和内容的学习分离开来,我们的策略首先精确学习一个内容低秩自适应(Content LoRA),然后在固定已学习的内容低秩自适应的同时学习一个风格低秩自适应。我们利用提出的损失过渡训练策略从参考图像中学习一个内容一致的低秩自适应。如图9所示,联合学习的风格低秩自适应往往会出现内容泄漏的情况,这可能主要有两个原因:1)同时优化风格和内容低秩自适应可能会使它们学习到与风格和内容都相关的共享特征;2)损失过渡策略中使用预测会导致风格低秩自适应无意中捕捉到局部内容细节。为了克服这些问题,我们建议使用预测从零开始单独训练风格低秩自适应,同时固定已学习的内容低秩自适应。此外,这种单独训练的方法允许通过使用特定于风格的提示(如“具有风格的图像”)进行更有针对性的风格学习,而不是像文献中使用的通用提示“一个”,从而引导低秩自适应专门捕捉风格属性。

图像风格化应用。与B-LoRA类似,我们的方法支持多种图像风格化应用,如图6所示。通过整合内容和风格低秩自适应可以实现风格迁移,有助于创建准确反映所需内容和风格的图像。仅使用内容低秩自适应可以实现基于文本的图像风格化,这由风格提示控制。相反,仅使用风格低秩自适应可以生成具有任何文本描述内容的风格一致的图像。

3. 利用推理引导进行控制

借鉴无分类器引导,先前的研究已经探索了各种用于风格化、图像编辑和组合生成等任务的推理引导方法。受这些方法的启发,我们引入了两个引导项,允许在推理过程中对内容和风格强度进行连续控制。形式上,在对内容和风格图像上的低秩自适应进行优化后,我们得到四组不同的低秩自适应权重:来自内容图像的内容和风格低秩自适应权重(分别表示为和),以及来自风格图像的内容和风格低秩自适应权重(分别表示为和)。我们的推理算法定义如下:

其中是使用低秩自适应权重和的无分类器引导项,控制引导的强度,是相应低秩自适应的文本条件向量。内容引导项定义为和的噪声之差,用于增强来自内容图像的内容强度。类似地,风格引导项增强来自风格图像的风格强度。请注意,在与基线进行比较的实验中,我们不应用这种推理引导,以确保公平比较。

实验

1. 实现与评估设置

实现细节。我们的实现基于SDXL v1.0,模型权重和文本编码器均被冻结。LoRA权重的秩设置为64。所有LoRA均在单张图像上进行训练。对于内容图像,我们最初使用预测进行500步训练,然后切换到预测再进行1000步训练。对于风格图像,我们首先使用上述训练策略获得其内容LoRA,然后使用预测单独训练一个新的风格LoRA,训练1000步。在单张4090 GPU上,整个训练过程大约需要12分钟。附录A提供了我们的方法和基线方法的更多实现细节。

评估设置。我们将我们的方法与四种最先进的风格化方法进行比较,包括StyleID、StyleAligned、ZipLoRA和B - LoRA。为了进行公平比较,我们从不同研究中收集了20张内容图像和20张风格图像。使用这些图像,我们组成了400对内容和风格图像用于定量评估。

2. 结果

定性评估。在图5中,我们展示了我们的方法和基线方法之间风格迁移结果的视觉比较。如图所示,B - LoRA、ZipLoRA和StyleAligned生成的输出与内容图像存在结构不一致的问题,因为预测损失倾向于捕捉宽泛的概念,而不是精确的全局结构。此外,从第一行和第二行可以观察到,B - LoRA有时会出现风格不对齐和内容泄漏的问题。ZipLoRA难以平衡合并后的内容和风格LoRA,有时会忽略参考图像的风格。虽然StyleID通过DDIM反演实现了良好的内容保留,但它往往无法准确捕捉参考图像的风格,从而降低了风格效果。StyleAligned的输出与内容图像存在明显的结构不一致,偶尔还会融入参考图像的结构元素。相比之下,我们的方法生成的图像内容一致,风格化准确,并能有效防止内容泄漏。图6展示了使用我们的方法进行不同风格化应用的更多结果。附录B提供了更多定性评估内容。

图片

图5. 定性比较。我们展示了我们的方法和四种基线方法(包括B - LoRA、ZipLoRA、StyleID和StyleAligned)的风格迁移结果。我们的方法在保留内容图像结构的同时,能准确应用参考风格图像的风格,表现出更优的性能。

定量评估。我们从风格和内容对齐的角度对每种方法进行了定量评估。使用DreamSim距离和CLIP分数来衡量生成图像和参考图像之间的风格对齐程度。使用DINO分数、DreamSim距离和CLIP分数来评估生成图像和内容图像之间的内容对齐程度。每种方法在400对风格和内容图像上进行评估,结果详见表1。StyleID在内容对齐方面表现最佳,但在风格对齐方面排名最低。这与定性观察结果一致,即StyleID往往会降低风格效果。除了这种极端情况外,我们的方法在风格和内容对齐方面均优于所有基线方法。特别是与B - LoRA相比,我们的方法在内容对齐方面有显著改进,这在DINO分数上尤为明显。虽然B - LoRA在风格对齐方面的CLIP分数与我们的方法相当,但由于参考图像的内容泄漏,这个分数可能被高估了。

表1. 定量比较。我们使用DreamSim(DS)距离以及基于CLIP和DINO特征计算的余弦相似度来衡量风格和内容对齐程度。

图片

图片

图6. ConsisLoRA在三项图像风格化任务中生成的结果:(顶部)将参考图像的风格迁移到目标图像的内容上;(中部)将提示词描述的风格应用到内容图像上;(底部)利用从参考图像中提取的风格生成提示词描述的对象。

用户研究。我们还进行了一项用户研究来评估我们的方法。在这项研究中,向参与者展示一张内容图像、一张参考图像和两张风格化图像:一张由我们的方法生成,另一张由基线方法生成。要求参与者选择在保留内容图像内容的同时,更符合参考图像风格的图像。我们从50名参与者那里总共收集了1500份反馈,详情见表2。结果表明,参与者明显更倾向于我们的方法。

表2. 用户研究。向参与者展示两张图像:一张由我们的方法生成,另一张由基线方法生成。结果表明,参与者明显更倾向于我们的方法。

图片

内容与风格分解。给定单张输入图像,我们将我们的方法与B-LoRA进行内容和风格分解的比较,分别应用内容和风格的低秩自适应(LoRA),如图7所示。当B-LoRA使用内容LoRA并结合文本提示描述的新风格时,它难以保留输入图像的全局结构,并且无法使生成的图像与提示中指定的风格对齐。此外,B-LoRA无法从输入图像中学习到解耦的风格LoRA

图片

图7. 内容和风格分解。与基线方法相比,我们的方法实现了更准确和解耦的内容与风格分解。

图片

图8. 推理引导。相应地增加内容和风格引导的强度会增强它们对生成图像的影响。放大查看效果更佳。

从而导致生成的图像出现严重的内容泄漏问题。相比之下,我们的方法有效地解耦了输入图像的内容和风格,在内容和风格分解方面显示出明显优势。更多分解结果见附录C。

3. 推理引导

在本节中,我们评估了第4.3节中提出的推理引导方法,该方法用于在推理过程中控制内容和风格的强度。如图8所示,相应地增加内容和风格的强度会增强它们对生成图像的影响。此外,附录F中提供了我们的推理引导方法与缩放LoRA权重方法的详细比较。我们观察到,在调整内容强度时,我们的方法能更有效地保留内容结构。在调整风格强度方面,两种方法都能够生成高质量的风格化图像。

4. 消融研究

我们进行了消融研究,以评估我们方法中每个组件的有效性。具体来说,我们评估了三种变体:1) 用预测替换预测,2) 去除风格LoRA的两步训练策略,以及3) 内容LoRA仅使用预测而不进行损失过渡。图9展示了每个变体生成的风格化图像的视觉比较。结果强调了每个组件的关键作用。如果不使用预测,模型将无法捕捉内容图像的全局结构和风格图像的风格特征。去除风格LoRA的两步训练策略会导致严重的内容泄漏问题。此外,内容LoRA仅使用预测会使模型难以捕捉局部细节(例如,第一行中挂在墙上的图片)。

图片

图9. 消融研究。我们评估了模型的三种变体:1) 用预测替换预测(变体A),2) 去除风格LoRA的两步训练策略(变体B),以及3) 内容LoRA仅使用预测而不进行损失过渡(变体C)。放大查看效果更佳。

总结

在本研究中,我们提出了ConsisLoRA,这是一种风格迁移方法,旨在解决现有基于低秩自适应(LoRA)方法面临的关键挑战,如内容不一致、风格不对齐和内容泄漏等问题。通过优化LoRA权重以预测原始图像而非噪声,我们的方法显著提高了风格和内容的一致性。我们的两步训练策略有效地分离了内容和风格的学习,促进了这些元素的解耦。此外,我们的逐步损失过渡策略确保了内容图像的全局结构和局部细节都能得到保留。尽管有这些进展,我们的方法仍存在一些局限性。首先,与其他基于LoRA的方法类似,我们的内容LoRA通常会忽略物体的颜色,而这一因素在某些应用中可能至关重要。其次,由于LoRA的容量有限,我们的方法在保留个体身份方面面临挑战。我们计划在未来的工作中重点加强个体身份的保留。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值