集智书童 | 语义分割新高度 | 英伟达提出SeNaTra空间分组层革新Backbone，性能效率双超Swin Transformer-CSDN博客

本文链接：https://blog.csdn.net/csdn_xmj/article/details/148694355

本文来源公众号“集智书童”，仅用于学术分享，侵权删，干货满满。

原文链接：语义分割新高度 | 英伟达提出SeNaTra空间分组层革新Backbone，性能效率双超Swin Transformer

精简阅读版本

本文主要解决了什么问题

1. 统一的分割架构设计：现有的视觉Backbone网络通常依赖于统一的下采样操作，无法适应图像内容的变化。本文提出了一种基于内容感知的空间分组层，旨在替代传统的均匀网格下采样方法。
2. 零样本分割能力：通过设计一种无需显式Mask监督的架构，本文探索了如何在无像素级监督的情况下生成高质量的分割Mask。
3. 高效性与可扩展性：针对高分辨率输入，本文提出了一种局部分组策略，确保计算复杂度线性扩展，同时保持端到端可微分性。

本文的核心创新是什么

1. 空间分组层的设计：提出了一种基于内容的空间分组层，能够根据图像边界和语义动态分配Token到一个缩减集合中，从而实现自适应特征下采样。
2. 原生分割能力：通过堆叠分组层，形成了原生分割视觉Transformer（SeNaTra），能够在不依赖额外分割Head的情况下生成高质量的分割Mask。
3. 局部与密集分组结合：早期阶段采用局部分组以降低计算复杂度，最终阶段启用密集分组以生成全图分割Mask，实现了效率与效果的平衡。
4. 马尔可夫链建模：将分组层输出解释为状态转移矩阵，通过马尔可夫链的形式实现从低分辨率到高分辨率的映射。

结果相较于以前的方法有哪些提升

1. 零样本分割性能显著提升：在多个基准数据集上，本文方法超越了现有技术，包括那些使用大规模预训练模型（如CLIP）的方法，尤其是在语义分割任务中表现优异。
2. 参数与FLOPs效率更高：相比传统Backbone网络（如SwinTransformer和NAT），本文提出的SeNaTra在保持或提升性能的同时，显著减少了参数量和计算成本。
3. 即插即用的多功能性：本文方法不仅可以作为独立的分割模型，还可以与专用分割Head（如Mask2Former）结合，进一步提升性能。

局限性总结

1. 对超大分辨率的支持有限：尽管局部分组策略降低了计算复杂度，但在极端高分辨率输入下，仍可能存在性能瓶颈。
2. 特定任务的适用性：虽然本文方法在分割任务中表现出色，但其在其他密集预测任务（如目标检测）中的表现尚未充分验证。
3. 训练数据规模的影响：在语义粒度较高的数据集（如ADE20k和COCO-Stuff）上，本文方法的表现略逊于使用大规模预训练的模型，表明进一步扩展训练数据可能带来更大提升。

深入阅读版本

导读

统一下采样仍然是视觉 Backbone 网络降低空间分辨率的事实标准。在本工作中，作者提出了一种基于内容感知空间分组层的设计方案，该方案根据图像边界及其语义内容动态地将token分配到一个缩减的集合中。将作者的分组层堆叠在连续的 Backbone 阶段中，能够在特征提取过程中自然地产生分层分割，从而形成了作者提出的原生分割视觉Transformer。作者证明，作者架构的精心设计使得仅通过分组层就能产生强大的分割 Mask ，即无需额外的分割特定 Head 。这为新型的原生 Backbone 级分割范式奠定了基础，该范式能够在无需 Mask 监督的情况下实现强大的零样本结果，并提供一种最小化且高效的独立模型设计，用于下游分割任务。

1 引言

现状。现代层次化视觉 Backbone 网络[1, 2, 3]反映了早期卷积网络的设计原则[4]，通过在逐步降低的空间分辨率下组织多阶段的特征处理。尽管特征处理面临挑战，例如卷积与自注意力机制的对比，但下采样阶段基本保持不变。通常通过普遍使用的池化操作或更近期的步长卷积[1]实现，这些操作对网格中的所有空间位置进行统一处理，而不管图像内容如何。这种层次化特征提取构成了最先进图像分割方法的基础，其中专门的分割头[5, 6] 学习将结果特征上采样并组合成语义上有意义的区域。

在降采样过程中对特征进行均匀空间处理，在升采样操作中表现为特征错位，增加了解码器头补偿 Backbone 设计固有局限性的负担[7, 8]。为此，近期研究[9, 10, 11, 12]探索了预印本。审稿中。

基于语义内容的数据驱动自下而上像素分组的不同分割网络设计和策略。尽管这些方法在概念上具有吸引力，但由于以下原因，它们在现代架构面前显得不足：要么 (i) 算法的计算复杂度相对于输入分辨率呈二次方关系 [9, 10]，要么 (ii) 非可微分的分组操作限制了它们的可扩展性和广泛实际应用 [11, 12]，并需要为下游分割任务使用专门的分割头，而不是利用其像素分组能力。

原生分割。作者引入了原生分割视觉Transformer（SeNaTra），这是一种 Backbone 架构，其核心组件——空间分组层，用基于图像内容对视觉 Token 进行学习动态分配到语义连贯组来替代均匀网格下采样。 Backbone 架构各阶段的连续分组操作自然地组合成从输入像素到最终 Token 的映射，有效地为 Backbone 架构每个阶段的 Token 创建多尺度分割 Mask 层次结构。作者称这种能力为原生分割，因为它源于 Backbone 架构固有的区域感知表示，而非外部头[13, 6, 5]。这使得外部头不再是严格必需的，尽管经验上它们仍然可能有益。

作者的设计在 Backbone 层分组方法上具有两个主要的方法论优势：（i）与使用纯交叉注意力[9, 10]或不可微分的聚类[11, 12]的方法不同，作者采用了受感知分组算法[14, 15]启发的可微分迭代聚类，嵌入了一种结构化的归纳偏差，使得无需直接监督即可产生连贯的分组；（ii）作者通过在早期阶段使用具有受限上下文窗口的局部分组层来确保可扩展性——实现与输入分辨率的线性扩展——同时在最终阶段仅采用密集分组，以高效生成全图分割 Mask 。总体而言，作者的设计实现了可扩展的原生分割，同时保持了效率并保持端到端可微分。

主要发现。作者观察到，在没有任何 Mask 监督的情况下，由于作者的网络设计，会涌现出类似于超像素结构的结构（图1，底部），这与经典的超像素算法[16, 17, 18, 14]类似，而不是手工设计[19]，或明确作为输入[11]使用。这些结构在最终的密集分组层中被进一步分组为具有语义意义的区域。作者在多个已建立的基准数据集上的零样本分割任务中验证了作者的原生分割能力，并表明Native-Segmentation显著优于现有技术，包括在规模大一个数量级的训练数据集上训练的模型，这表明作者的架构具有数据效率，归功于作者的分组层。当在ADE20k[20]和COCO-panoptic[21]上进行语义和全景分割训练时，Native-Segmentation在没有任何专用分割头（例如RoI头[5]或Transformer解码器[6]）的情况下，优于多个强 Baseline ，并且参数和FLOP计数显著减少。此外，当与这些头结合使用时，SeNaTra始终提高顶级 Backbone 网络的表现。

总之，作者(i)提出了一种原生分割视觉Transformer，该模型在没有任何像素/ Mask 监督的情况下学习视觉输入的层次化分割。作者网络的关键构建模块是(ii)作者的分组层，该层执行图像内容自适应特征下采样，有效地替代了整合式分割网络中采用的均匀、基于网格的特征下/上采样层。最后，(ii)作者揭示了一种精简的原生分割网络，该网络在没有任何专用头的条件下获得 Mask ，并在零样本分割方面表现出色，该网络在没有任何像素/ Mask 监督的情况下进行训练，同时在标准的语义/全景分割基准测试中表现优异。

2 相关工作

视觉 Backbone 网络自从Neocognitron [22] 和 LeNet [23] 的开创性工作以来，卷积神经网络（CNN）一直推动着数据驱动的计算机视觉领域的进步。这些网络通常采用一系列卷积层，将一组可学习的滤波器应用于输入特征图，并交替进行特征下采样操作，从而生成多尺度特征图的层次结构。尽管基于纯Transformer的架构 [24] 兴起，现代层次化 Backbone 网络 [1, 3, 25] 仍然在密集预测 [26] 中占据主导地位，并且仍然遵循相同的基本设计原则：它们由多个特征提取阶段组成，并在这些阶段之间进行统一的下采样操作。在本工作中，作者重点关注了在很大程度上被忽视的下采样操作，并表明通过将其替换为作者提出的空间分组模块，作者可以获得一个具有原生分割能力的 Backbone 网络。

密集预测。在过去的十年中，作者见证了密集预测网络设计的“寒武纪大爆发”。值得注意的例子包括全卷积网络[27]、编码器-解码器架构[28]以及[29, 30]的开创性工作。最近，DETR[31]使用Transformer以集合预测的方式处理端到端检测，将目标 Proposal 或分割视为可学习的 Query 。MaskFormer[13, 6]借鉴了这一设计，并增加了一个像素解码器来上采样特征图，并与其 Backbone 网络和Transformer解码器联合训练以处理 Query 。SeNaTra可与此类分割头结合使用以提高分割精度，或在缺少此类专用头的情况下生成高质量的原始 Mask 。

感知分组。在端到端分割方法出现之前，组合优化是执行该任务的主要算法工具。值得注意的例子包括[17]的开创性工作，该工作引入了基于图的分割方法，能够根据内部变化自适应地合并区域，以及归一化切割[32]。传统的超像素算法，如SLIC[14]，作为基于颜色相似性和邻近性的高效工具而出现，用于获取分割区域。认识到分割的固有模糊性，一些方法探索了在多个尺度上逐步将区域合并为分割层次结构[18, 33]。Native-Segmentation借鉴了这些思想，但在现代端到端可训练的视觉 Backbone 网络背景下重新进行了表述。

提出了几种基于学习机制的像素分组方法 [34] 引入了一种针对特定任务的SLIC算法的可微分变体。类似地，[15] 提出了一种用于无监督目标发现的K-Means可微分变体，该变体迭代地将图像像素分配到一组槽位中。虽然这些方法启发了作者的空间分组层，但作者提出了一种Sparse且高效的设计，并将其作为现代 Backbone 网络的基本构建模块进行集成。

视觉 Backbone 中的分组。GroupViT [9] 和 ClusterFormer [10] 开创了具有可学习下采样操作的数据驱动 Backbone 设计。它们使用（密集）交叉注意力层将图像成分分组为较少的 Token 集，但由于注意力操作相对于输入大小的二次复杂度，这限制了它们的可扩展性。相比之下，Native-Segmentation具有通用性，并扩展到较大的输入分辨率，因为早期的局部层减少了密集层操作的输入 Token 集基数。这使得Native-Segmentation适用于各种分割任务，并在文本监督的语义分割中显著优于基于交叉注意力的分组 [10]。或者，[11, 12] 使用不可微分的超像素方法 [19] 获取初始图像分割，然后进行数据驱动分组，而 TCFormer [12] 依赖于外部聚类方法跨多个网络层对图像成分进行分组。Native-Segmentation不需要这种不可微分的聚类方法，仅由可微分的分组层组成。作者的精简设计在零样本分割方面优于现有技术。此外，与上述工作不同，作者展示了它在下游分割任务中无论是否使用专门的分割头都表现良好。

3 局部分割视觉Transformer

作者的原生分割视觉Transformer（SeNaTra）遵循现代分层视觉 Backbone 网络的标准化结构[1, 2, 3]，由四个阶段组成，这些阶段逐步降低特征图的 spatial resolution，同时将通道维度加倍（图2）。

3.1 基于内容的空间分组层

学习语义上有意义的像素组。当前架构中实际标准化的均匀下采样操作，如池化或步长卷积，无论图像中的特征内容如何，平等对待所有特征位置，并对所有输入 Token 应用固定操作。这种方法在区分高低频区域和捕捉相关细节方面具有固有的局限性。为解决这一局限性，作者提出学习输入 Token 与下采样 Token 之间的映射关系，使其能够动态适应输入特征，而非仅依赖网格中的特征位置。具体而言，作者将具有相似特征嵌入的 Token 映射到下采样表示中的同一输出 Token ，这些 Token 属于同一目标或语义上有意义的区域。通过学习这种映射关系，Native-Segmentation能够在图像的连续网络阶段中保留语义上有意义的边界。

与槽位注意力连接。作者分组层中的核心操作与Slot Attention [15]中引入的操作相似。作者的下采样 Token 可以解释为槽位，这些槽位不是从随机分布中采样，而是通过在输入 Token X 上应用步长卷积层进行初始化。额外的技术差异包括用更简单的 Shortcut （算法1，L9）替换原本用于更新槽位（即像素组）的GRU，以及使用相对位置编码来编码输入和输出 Token 之间的空间关系（算法1，L3）。更重要的是，上一段中引入的交叉注意力操作中的Sparse性约束使得能够高效处理高分辨率输入，这使得这种可微分的分组机制对分层视觉 Backbone 网络是实用的。

3.2 局部分割

4 实验

概述。在下文中，作者广泛评估了SeNaTra在不同监督机制和任务复杂度下的表现。在4.2节中，作者从无 Mask 监督开始，研究从图像类别（4.1.1节）和图像描述（4.1.2节）监督中涌现的分割，并将Native-Segmentation与最先进的零样本分割方法进行比较。在4.2节中，作者在标准的语义分割（4.2.1节）和全景分割（4.2.2节）数据集和基准上训练和评估Native-Segmentation，将作者的直接分割模型和 Backbone 网络作为即插即用的替代方案与最先进的方法进行比较。作者在4.3节分析了作者的设计选择和贡献。

模型。作者评估了三个SeNaTra模型：tiny（T）、base（B）和large（L），其输出嵌入维度分别为512、1024和1536，遵循[3]中的配置。完整配置在附录D中提供。

4.1 无 Mask 监督学习

4.1.1 ImageNet分类

4.2 带 Mask 监督的训练

概述。作者使用 Mask 监督在标准语义分割[46]和全景分割[21]数据集上训练SeNaTra。遵循常见做法，作者从ImageNet预训练初始化权重（第4.1.1节）。附录D.3提供了扩展结果和实现细节。

分割范式。对于每个任务，作者评估 (i) 作者的极简原生 Mask 模型，该模型通过 Backbone 层级的像素分配生成 Mask ，以及 (ii) 即插即用的 Backbone 替换与一个Mask2Former（M2F）[6]专用头相结合（见表2[c]）。

原生分割：作者通过将主干网络的最终组 Token Embedding 输入到一个2层（512维）的MLP来生成逐像素分类预测。然后，作者使用学习到的像素分配（第3.2节）将这些（以32的步长）上采样到输入分辨率，并使用交叉熵损失进行分类预测。对于全景模型，作者使用一个额外的2层MLP来针对目标进行预测。作者将其应用于具有最大分配值的顶部100个最终组 Token ，这些 Token 代表目标候选。作者遵循[6]，并使用二分图匹配损失[31]对实例 Mask 和分类预测进行监督。

Ours+Mask2Former：作者的网络具有多功能性，也可作为可即插即用的替代方案，用于与结合了多尺度可变形注意力像素解码器和分割Transformer解码器的网络，例如广泛使用的M2F。在作者的版本中，作者用通过作者学习到的分配（第3.2节）获得的分配矩阵替换了标准的上采样操作。

Baseline 方法。作为 Backbone Baseline ，作者报告了遵循统一下采样设计的整合化方法，包括成熟的SwinTransformer[1]和NAT[3]，以及最近的自底向上分组方法[11, 12, 10]。作者结合专用分割网络报告这些方法，包括：UperNet[37]（通常用于视觉架构基准测试[1, 3, 25, 59, 60]）以及广泛使用的MaskFormer（MF）[13]和Mask2Former（M2F）[6]。作者评估SeNaTra作为 Backbone 网络，以及在不使用专用分割头的情况下生成原生 Mask 。

4.2.1 语义分割

设置。作者在ADE20k数据集[20]上训练模型，将像素分类为150个语义类别，并遵循常见做法，在验证集上报告结果。作者采用与 Baseline 类似的超参数配置（详情见附录D.3），但由于Native-Segmentation收敛速度更快，将迭代次数从160k减少到80k。

讨论。在表2a中作者观察到：(i)作者的原生 Mask 在采用成熟的分割头（UperNet [37]、Semantic FPN [61]、Segmenter [62]）的情况下，相较于标准和基于分组的 Backbone 网络均有显著提升，且在作者的较小变体中表现出卓越的计算和参数效率。SeNaTra-T达到了49.7 mIoU，比NAT与UperNet（47.1 mIoU，NAT-T）高出2.6 w.r.，但其FLOPs仅为其12%，参数量为其50%。当(ii)使用M2F头时，作者的基于分组的表示在各个变体中始终提升性能：相较于M2F+S win，提升1 mIoU，相较于M2F+NA，提升2.7 mIoU。总体而言(iii)，作者的 Backbone 网络在标准和基于分组的 Backbone 网络基础上增加了适度的5‰参数量和FLOPs。虽然将其与M2F结合会略微增加NAT的计算成本，但在原生设置中（移除分割头）该成本被有效分摊，使得整体方法在参数和FLOPs效率上更加优化。

4.2.2 全景分割

设置。作者在COCO-panoptic [21]上训练和评估模型，该数据集包含80个目标（things）和53个背景（stuff）类别，要求模型预测目标的语义类别和实例ID。Native-Segmentation训练了50个epoch，使用M2F的集成模型的原始超参数。对于作者的原生结果，作者使用了与语义分割相同的超参数。

讨论。作者从表2b中观察到：(i) 尽管参数数量更少（32M vs 42M），作者的微型原生结果（49.2 PQ）在性能上显著优于MaskFormer w/Swin-T（47.7 PQ）。这一趋势在不同模型尺寸下均保持一致，与表2a的结果相符。(ii) M2F+NAAT-T Backbone 网络（54.3 PQ）优于作者的基础原生 Mask ，然而SeNaTra-T+M2F（55 PQ）实现了最佳性能，并且随着 Backbone 网络规模的增大（SeNaTra-L，58.1 PQ）性能进一步提升。总体而言，作者的原生结果超越了整合 Baseline 模型，并且当与专门的分割头配合时，作者的 Backbone 网络能够提升当前最佳性能。

4.3 消融实验

不同主干阶段的分组。表3a将作者的空间分组层与均匀下采样结合步长卷积（如NAT [3]中未分组的做法）在每个主干阶段（S1、S2、S3）进行比较。 Baseline 方法在监督学习（413 mIoU - 8.4）和零样本学习（40.1 mIoU, -17.2）设置下均表现不如Native-Segmentation。该方法不依赖学习像素分配，而是通过双线性插值从粗步长32特征图预测高分辨率 Mask 。此外，作者观察到跨阶段引入分组空间层能单调提升性能。最后阶段的局部分组在两个指标上显著降低了性能。作者的设计通过早期阶段的高效局部分组实现了全图 Mask 生成。

分组层设计。表3b将作者的分组层设计（第3.1节）与槽位注意力[15]进行了比较。用 Shortcut 替换GRU可提升+4.8 mIoU。实践中，作者观察到这种方法解决了ImageNet预训练过程中的数值不稳定性，并降低了内存需求。类似地，从学习到的高斯分布中采样初始嵌入（如[15]所述）也损害了稳定性。使用可学习嵌入进行初始化（如[63]所述），性能仍下降2.5/3.2 mIoU。进一步使用相对位置编码可再提升1 mIoU。总而言之，这些改进在ADE20k和ZS-vOC上分别显著提升了6.1/5.0 mIoU，同时增强了训练稳定性和内存占用。

分割范式。在表4中，作者消融了：(i) Backbone 网络选择（作者具有原生分割能力的网络与 Baseline [3]），以及(ii)两个关键的Mask2Former组件：用于多尺度特征融合的像素解码器和用于生成 Mask 嵌入的Transformer解码器。在前两行中，作者比较了NAT（无分组）与Native-Segmentation，且不添加任何额外组件。作者的 Baseline 在此任务上表现不佳（PQ 15.9，第2行），并且在语义分割中表现较差（-8.4 mIoU）。添加像素解码器（来自Mask2Former的MSDeformAttn，第3行和第4行）对Native-Segmentation影响甚微，但显著提升了NAT Baseline （+6.4 mIoU）。最后，第5行和第6行表明，分割解码器对于NAT分割实例至关重要（54.3 mIoU），并且有利于语义分割（+1.7 mIoU）。专用解码器在全景分割方面也使Native-Segmentation受益（55.0 PQ，+5.8 PQ），显示出改进的潜力。

5 结论

这项工作介绍了一种特别适用于以作者提出的空间分组层为核心的分割任务的全新架构。作者的设计相较于现有技术具有显著的方法论优势，完全可微，具有强大的归纳偏置，并且能够扩展到较大的输入分辨率。通过实证结果，作者展示了无需显式 Mask 监督即可生成有意义的分割块，并提出了一个简化的下游分割范式。作者的研究表明，分割——这一基础感知任务——可以内在地编码在模型的内部表示中，而不是委托给专门的解码器模块，为以分割为中心的主干架构开辟了新的方向。