中科大提出SPEED！5秒消除100个概念，高保真+高效，AI内容安全新标杆！

最新推荐文章于 2025-04-11 15:47:45 发布

DataSourceAI

最新推荐文章于 2025-04-11 15:47:45 发布

阅读量860

点赞数 8

文章标签：人工智能深度学习 AI

本文链接：https://blog.csdn.net/DataSourceAI/article/details/146239511

版权

🌐 社群导航

🔗点击加入➡️【AIGC/LLM/MLLM/3D/自动驾驶】技术交流群

🔗点击加入➡️【2-3月CCF投稿】交流群

最新论文解读系列

论文名：SPEED: Scalable, Precise, and Efficient Concept Erasure for Diffusion Models

论文链接：https://arxiv.org/pdf/2503.07392

开源代码：https://github.com/Ouxiang-Li/SPEED

导读

大规模文本到图像（T2I）扩散模型仅通过文本描述就能生成高度逼真且上下文连贯的图像，从而推动了该领域的重大突破。随着这些进展，人们也对版权侵犯、冒犯性内容和隐私问题提出了担忧。为了降低生成过程中的伦理和法律风险，通常需要防止模型生成某些概念，这一过程被称为概念擦除。然而，如果在去除目标概念时不仔细保留非目标概念的语义，可能会引入意外的伪影、失真并降低图像质量，从而损害模型的可靠性和可用性。因此，除了确保有效去除目标概念（即擦除效果）之外，概念擦除还应保持非目标概念的原始语义（即先验保留）。

简介

由于人们对版权侵犯、冒犯性内容和隐私侵犯问题的担忧日益增加，从大规模文本到图像（T2I）扩散模型中消除概念变得越来越重要。然而，现有方法要么需要高昂的微调成本，要么由于固有的优化限制，会降低非目标概念（即先验）的图像质量。在本文中，我们介绍了SPEED，这是一种基于模型编辑的概念消除方法，它利用零空间约束实现可扩展、精确且高效的消除。具体而言，SPEED采用了基于影响的先验过滤（IPF，Influence-based Prior Filtering）来在消除过程中保留受影响最大的非目标概念，采用了定向先验增强（DPA，Directed Prior Augmentation）来在保持语义一致性的同时扩大先验覆盖范围，并采用了不变等式约束（IEC，Invariant Equality Constraints）通过在T2I生成过程中明确保留关键不变量来规范模型编辑。在多个概念消除任务上的广泛评估表明，SPEED在保留先验信息方面始终优于现有方法，同时实现了高效且高保真的概念消除，仅需5秒即可成功消除100个概念。

方法与模型

SPEED中零空间约束的核心是确定一个投影矩阵，该矩阵将的解空间约束在保留集的零空间内，确保非目标概念在擦除后不受影响。矩阵的秩反映了保留集的多样性，直接决定了其零空间的结构，而零空间由决定。随着的增加，逐渐达到满秩，其零空间变窄并缩减为平凡零空间。然而，缩小会因允许更多未包含的非目标概念发生意外偏移而消除先验覆盖范围。为了平衡这一困境，我们引入了三种互补技术：基于影响的先验过滤（Influence-Based Prior Filtering，IPF），用于保留受影响最大的非目标概念，同时避免秩过度饱和；定向先验增强（Directed Prior Augmentation，DPA），用于通过语义一致的变体扩展先验覆盖范围；不变等式约束（Invariant Equality Constraints，IEC），用于施加额外的约束以在生成过程中保留关键不变量。

*考虑到可能会根据具有较高的维度，我们通过对执行奇异值分解（SVD）来计算零空间，因为和具有相同的零空间。

1. 基于影响的先验过滤（IPF）

给定一个预定义的保留集，现有的基于编辑的方法通常忽略了不同目标概念对非目标元素的不同影响，如图3所示，更紧密的语义关系（例如，史努比（Snoopy）与米奇（Mickey）和狗（Dog））会导致更大的先验偏移。这种不同的影响表明，并非所有非目标概念对保留先验知识的贡献都是相等的，受影响较弱的概念在引入额外的秩来约束零空间的同时，带来的益处微乎其微。为了改进这一点，我们建议通过选择性地保留那些受被擦除目标概念影响最大的非目标概念，来过滤原始保留集。

图3. 擦除不同目标概念时的先验偏移比较。先验偏移通过第4.1节中引入的来衡量，其中表示概念嵌入。值越大表明擦除后对该概念的影响越大。

为了评估这种影响，我们首先得到了封闭形式的解，该解在编辑过程中仅考虑擦除效果。具体来说，我们从公式1中移除了保留误差，并引入了一个额外的正则化项以确保收敛性：

然后，我们可以通过测量先验偏移量来量化对每个概念嵌入的影响。这一指标源于这样一种直觉：在消除目标概念后，非目标概念中更大的先验偏移量表明对相应先验知识的影响更大。在此基础上，我们可以通过以下过程利用先验偏移量对原始保留集进行过滤：

其中，均值用作过滤阈值。

2. 定向先验增强（Directed Prior Augmentation，DPA）

为防止IPF（特发性肺纤维化，这里结合语境推测可能是某种算法或方法名，原文未明确）生成过小的保留集，以免影响先前的覆盖范围，一种直观的策略是通过用随机噪声[37]扰动非目标嵌入来增强先验知识。然而，这种策略会引入无法生成语义连贯图像（例如噪声图像）的无意义嵌入，导致随着排名增加而过度保留。为了寻找语义更一致的概念，我们通过将随机噪声投影到模型参数变化最小的方向上来引入有向噪声。如图4所示，此操作确保了经过扰动的嵌入在由映射后表达的语义与原始概念更接近。具体而言，我们首先推导出一个投影矩阵：

图4. 用随机噪声和我们的定向噪声扰动原始概念的t-SNE分布。(a) 与随机噪声类似，我们的方法可以跨越广泛的概念嵌入空间。(b) 我们的定向噪声在映射的空间中与原始概念保持语义相似性，距离更近。

其中表示相对于最小的个奇异值的特征向量，这些特征向量代表了的个变化最小的方向。然后，定向噪声用于通过以下方式扰动原始嵌入：

给定一个保留集，增强过程可以表述如下：

其中表示增强次数，表示在给定的情况下，使用公式 7 得到的第个增强嵌入。在实现过程中，我们首先使用 IPF（迭代比例拟合，Iterative Proportional Fitting）对原始保留集进行过滤以得到。随后，使用 DPA（动态规划算法，Dynamic Programming Algorithm）和 IPF 对进行进一步的增强和过滤以得到，然后将这两个经过过滤的保留集合并在一起，作为最终的精炼保留集。

3. 不变等式约束（IEC，Invariant Equality Constraints）

同时，我们还识别出了文本到图像（T2I）生成过程中的某些不变量，即不随采样提示而改变的中间变量。其中一个不变量是CLIP编码的[SOT]标记（Start of Text，文本起始标记）。由于编码过程由因果注意力机制屏蔽，并且在分词时所有提示都以固定的 [SOT] 标记为前缀，因此对应的嵌入保持不变。另一个不变量是空文本嵌入，因为它对应于无分类器引导下的无条件生成 [23]，即使提示发生变化，它也保持不变。鉴于这些嵌入的不变性，我们考虑对这些不变嵌入采取额外的保护措施，以确保在概念擦除过程中它们的输出保持不变。具体来说，我们基于公式3为不变量引入了显式的等式约束：

图5. 单实例和多实例概念擦除中少概念擦除的定性比较。被擦除和保留的生成结果分别用红色和绿色框突出显示。在单概念擦除方面，与最先进的方法UCE [18]相比，我们的方法在先验信息保留上表现更优，并且随着目标概念数量的增加，这种优势更加明显。例如，在Hello Kitty（凯蒂猫）案例中，我们的生成结果在擦除三个概念后变化较小，而UCE的生成结果则逐渐变差。

其中表示 [SOT] 和空文本的堆叠不变嵌入矩阵。利用从导出的投影矩阵，我们可以使用附录B.3中的拉格朗日乘数法计算方程9的闭式解：

其中

这种闭式解通过将参数更新投影到与不变嵌入正交的子空间来强制执行等式约束。由于图像生成不可避免地依赖于这些不变嵌入，因此这种约束本质上保留了先验知识。

实验与结果

在本节中，我们对三个具有代表性的擦除任务进行了广泛的实验，包括少概念擦除、多概念擦除和隐式概念擦除，验证了我们在先验保留方面的优越性。对比的基线方法包括ConAbl [29]、MACE [35]、RECE [19]和UCE [18]，这些方法在各种概念擦除任务中都取得了最优（SOTA）性能。在实现过程中，我们在SDv1.4 [1]上进行了所有实验，并使用DPM-solver采样器 [34]，通过20个采样步骤和7.5的无分类器引导 [23]来生成每张图像。更多实现细节和对比基线（例如，SPM [37]）可在附录C和附录D.2中找到。

1.少概念擦除

评估设置。为了将少概念擦除性能与基线方法进行比较，我们按照文献[37]进行实例擦除和艺术风格擦除实验，其中所有方法都基于80个实例模板和30个艺术风格模板进行评估，每个模板每个概念生成10张图像。我们使用两个指标进行评估：CLIP分数（CS）[45]用于衡量文本 - 图像相似度，弗雷歇 inception 距离（FID）[22]用于评估擦除前后的分布距离。按照文献[37]，我们选择与目标概念语义相似的非目标概念进行比较，并在正文中报告目标的CS和非目标的FID。完整的比较结果见附录D.1。我们进一步在MS - COCO字幕[33]上比较生成结果，我们使用前1000条字幕生成图像，并报告CS和FID作为通用知识保留的衡量指标。

表1. 少量概念擦除在擦除实例中的定量比较，其中被擦除的目标概念用粉色阴影表示。表头的箭头表示每个指标的优选方向，最佳结果用粗体突出显示。我们的方法虽然没有达到最低的概念相似度（CS），但在图5中已被证明是有效的，并且在非目标概念的先验保留方面始终表现出显著的改进。

表2. 单艺术风格擦除中少概念擦除的定量比较。

分析与讨论。表1和表2比较了擦除各种实例概念和艺术风格的结果。我们的方法在所有非目标概念上始终实现了最低的弗雷歇 inception 距离（FIDs），表明在对原始内容进行最小改动的情况下，能出色地保留先验信息。此外，如图5所示，我们强调即使未达到最低的余弦相似度（CS），我们的擦除方法也足够有效。相比之下，较低的CS值通常表明过度擦除，这会导致先验知识过度退化。值得注意的是，随着目标概念的数量从1个增加到3个，我们在皮卡丘（Pikachu）上的FID从16.81上升到21.40（增加了4.59 ），而无约束概念擦除（UCE）方法的FID从19.06增加到29.20（增加了10.14 ）。在凯蒂猫（Hello Kitty）上也观察到了类似的模式（我们的方法增加4.48 ，而UCE方法增加10.29 T），这表明我们的方法在擦除越来越多的多个概念时具有鲁棒性。

5.2. 多概念擦除

评估设置。另一种更现实的消除场景是多概念消除，即需要一次性消除大量概念。在此，我们遵循文献[35]中消除多位名人信息的实验设置，分别进行消除10位、50位和100位名人信息的实验，并选取另外100位名人作为非目标概念。我们为每个名人概念准备5个提示模板。对于非目标概念，我们为100个概念中的每个概念每个模板生成1张图像，总共生成500张图像。对于目标概念，我们调整每个概念的数量以保持总共500张图像（例如，擦除10位名人涉及每个概念用5个模板生成10张图像）。在评估中，我们采用GIPHY名人检测器（GCD）[20]并测量前1名GCD准确率，擦除的目标概念用表示，保留的非目标概念用表示。同时，采用调和平均数来评估整体擦除性能：

此外，我们报告了在MS - COCO上的结果，以证明对一般概念的先验保留。

分析与讨论。表3展示了我们的方法在多概念擦除方面的显著改进，特别是在以最高的实现先验保留方面。与最先进的方法MACE [35]相比，我们的方法以更好的实现了更优的先验保留，同时保持了相当的擦除效果，这体现在相似的上，从而以最高的显示出最佳的整体擦除性能。同时，在MS - COCO数据集上，我们的方法在所有方法中实现了最低的FID。其他方法，UCE [18]和RECE [19]，虽然在少概念擦除中实现了相当的平衡，但如图6所示，随着目标概念数量的增加，它们无法保持这种平衡，在MS - COCO数据集上也证明了其对先验造成了严重破坏。值得注意的是，我们的方法可以在5秒内擦除多达100位名人，而MACE则需要约30分钟（时间）。在现实场景中，这种效率凸显了我们在即时擦除大量概念方面的潜力。

表3. 多概念擦除在擦除10个、50个和100个名人时的定量比较。最佳结果以粗体突出显示。我们的方法能够一次性擦除多达100个名人，同时具有较低的，并且能以较高的保留其他非目标名人，使其外貌变化较小，从而实现最佳的整体擦除性能（以粉色阴影显示）。

图6. 擦除不同数量名人（celeb）时多概念擦除的定量比较。被擦除和保留的生成结果分别用红色和绿色框突出显示。我们的方法可以精确地擦除100位名人，同时保持其他非目标概念的正常生成。

5.3. 关于隐式概念擦除

评估设置。我们进一步评估了对隐式概念的擦除效果，在这种情况下，目标概念不会明确出现在文本提示中。我们在不适当图像提示（I2P，Inappropriate Image Prompt）基准测试 [51] 上进行了实验，该基准测试包含各种涉及暴力、色情内容和裸露的隐式不适当提示。我们遵循文献 [19] 中的相同设置来擦除裸露。具体而言，我们使用 I2P 中的所有 4703 条文本提示生成图像，并使用 NudeNet [6] 以 0.6 的阈值来识别裸露内容是否被成功擦除。此外，我们还报告了在 MS - COCO 上的结果，以证明对一般概念的先验保留情况。

分析与讨论。如表 4 所示，我们的方法能够有效擦除隐式概念，即裸露，检测到的裸露身体部位数量排名第二。最先进的方法 RECE [19] 通过扩展包含更多目标概念的擦除集，实现了最佳的总数，但这是以牺牲在 MS - COCO 上的先验保留为代价的。相比之下，我们的方法实现了最佳的先验保留，证明了在保持强大的先验保留能力的同时，在擦除和保留之间取得良好的平衡。

表4. 在I2P基准上对隐式概念擦除的评估。我们报告了NudeNet在阈值下检测到的裸身部位数量（F：女性，M：男性）。最佳和次佳结果分别用粗体和下划线标注。（左）我们的方法能有效去除裸身内容，即使I2P提示中未明确提及裸身，也能取得次佳的总数。（右）在MS - COCO数据集上，我们的方法在非目标概念的先验保留方面也始终优于其他方法。

总结

本文介绍了SPEED（可扩展、精确且高效的概念擦除方法），这是一种适用于文本到图像（T2I）扩散模型的可扩展、精确且高效的概念擦除方法。它将概念擦除表述为一个零空间约束优化问题，有助于在实现精确擦除效果的同时有效保留先验信息。关键在于，SPEED克服了基于编辑的方法在多概念擦除方面的低效问题，同时避免了基于训练的方法所带来的高昂计算成本。通过我们提出的涉及三种互补技术的先验知识细化方法，SPEED不仅确保了卓越的先验信息保留，还在多概念擦除方面实现了的加速，使其成为适用于实际应用的可扩展且实用的解决方案。