【生成模型之十六】eDiff-I: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers-CSDN博客

本文链接：https://blog.csdn.net/Jeremy_lf/article/details/146009539

欢迎大家进群交流~WX：lf2637649812（备注CSDN）

论文：eDiff-I: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers

github：https://deepimagination.cc/eDiff-I/

类型：Text-to-Image

一、背景

在文本到图像生成模型中，输入文本由text embedding表示，该嵌入是从预训练模型（如CLIP[55]或T5[56]文本编码器）中提取的。在这种情况下，根据文本提示生成图像的问题简单地归结为学习一个条件生成模型，该模型将文本嵌入作为输入条件，并生成与条件对齐的图像。

从随机噪声开始，这种文本到图像的扩散模型以迭代的方式逐渐合成图像，同时对文本提示进行调节。我们发现，在整个过程中，它们的合成行为在质量上发生了变化：在采样的早期，生成强烈依赖于文本提示来生成与文本对齐的内容，而后来，文本条件几乎完全被忽略了，任务变成了产生高视觉保真度的输出。这表明，在整个生成过程中共享模型参数（文献中的标准做法）可能不是最好地捕捉这些明显不同的生成过程模式的理想方法。因此，与现有的工作相比，我们建议训练一组专门针对不同合成阶段的文本到图像扩散模型。为了保持训练效率，我们首先训练一个模型，然后逐步将其拆分为专门的模型，这些模型针对迭代生成过程的特定阶段进行进一步训练。我们的扩散模型集成称为eDiff-I，在保持相同的推理计算成本和保持高视觉质量的同时，改善了文本对齐，在标准基准上优于之前的大规模文本到图像扩散模型。此外，我们训练我们的模型来利用各种嵌入进行调节，包括T5文本、CLIP文本和CLIP图像嵌入。我们发现，这些不同的嵌入导致了不同的图像形成行为。

Super-resolution diffusion models

文本条件超分辨率扩散模型的训练在很大程度上遵循了上述文本条件扩散模型的训练。主要区别在于，超分辨率去噪模型也将低分辨率图像作为条件输入。根据先前的工作[57]，我们在训练过程中将各种破坏应用于低分辨率输入图像[81]，以提高超分辨率模型的泛化能力。

二、方法

发现现象：在每个噪声水平σ下的去噪模型D依赖于两个信息源进行去噪：当前有噪声的输入图像x和输入文本提示e。文本到图像的扩散模型在依赖这两个来源的同时表现出独特的时间动态。在生成开始时，当σ较大时，输入图像x主要包含噪声。因此，直接从输入视觉内容中去噪是一项具有挑战性和模糊性的任务。在这个阶段，D主要依靠输入文本嵌入来推断朝向文本对齐图像的方向。然而，随着σ在生成结束时变小，大多数粗略级别的内容都由去噪模型绘制。在这个阶段，D大多忽略了文本嵌入，并使用视觉特征来添加细粒度的细节。

在图4中，我们还研究了在去噪过程的不同阶段将输入字幕从一个提示切换到另一个提示时，生成的样本是如何变化的。当在去噪的最后7%发生提示切换时，生成输出保持不变。另一方面，当提示切换发生在训练的前40%时，输出完全改变。

目前现状：在大多数现有的扩散模型研究中，去噪模型在所有噪声水平上共享，时间动态通过简单的时间嵌入表示，并通过MLP网络馈送到去噪模型。我们认为，使用容量有限的共享模型可能无法从数据中有效地学习去噪扩散的复杂时间动态。相反，我们建议通过引入一组专家去噪器来扩大去噪模型的容量；每个专家去噪器都是一个专门针对特定噪声水平范围的去噪模型。这样，我们可以在不减慢采样速度的情况下增加模型容量，因为在每个噪声水平下评估D的计算复杂性保持不变。

然而，天真地为不同阶段训练单独的去噪模型会显著增加训练成本，因为需要从头开始训练每个专家去噪器。为了解决这个问题，我们首先在所有噪声水平上训练一个共享模型。然后，我们在下一阶段使用该模型对去噪专家进行初始化。接下来，我们讨论如何迭代地从预训练模型中正式创建去噪专家。

2.1. Efficient Training of Expert Denoisers

我们提出了一种基于二叉树实现的分支策略，用于有效地训练专家去噪器，我们首先使用表示为p（σ）的全噪声级分布来训练一个在所有噪声级之间共享的模型。然后，我们从这个基线模型中初始化两个专家。让我们称这些模型为1级专家，因为它们是在二叉树的第一级上训练的。这两位专家是在噪声分布p0（σ）和p1（σ）上训练，这些分布是通过将p（σ）按面积等分得到的。因此，接受过p10（σ）培训的专家专门研究低噪声水平，而接受过p11（σ）训练的专家则专门研究高噪声水平。

简而言之，我们的最终系统将有一个由三个专家降噪器组成的集成：一个专注于低噪声水平（由二叉树中最左侧的区间给出）的专家降噪器，一个专注于高噪声水平的专家降噪剂（由二元树中最右侧的区间给定），以及一个用于学习所有中间噪声区间的单个专家降噪器。附录B详细描述了我们的分支策略。在第5节中，我们还考虑了其他类型的集成专家进行定量评估。

2.2 Multiple Conditional Inputs

为了训练我们的文本到图像扩散模型，我们在训练过程中使用了以下条件嵌入：(1) T5- XXL [56] text embeddings, (2) CLIP L/14 text embeddings and (3) CLIP L/14 image embeddings.

我们为整个数据集预先计算这些embedding，因为在线计算它们非常昂贵。与先前的工作[27,59,63]类似，我们将投影的条件嵌入添加到时间嵌入中，并在去噪模型的多个分辨率下额外执行交叉注意。在训练过程中，我们对每个嵌入独立使用随机丢弃[74]。当一个嵌入被丢弃时，我们将整个嵌入张量清零。当所有三个嵌入都被丢弃时，它对应于无条件训练，这对于执行无分类器引导非常有用[28]。