Abstract(摘要)
领域泛化旨在从一个“已知”的源领域学习一个可泛化的模型,用于各种“未知”的目标领域。通过将源图像转移到空间空间中的不同风格以学习领域无关的特征的领域随机化已经被广泛研究。然而,大多数现有的随机化使用通常缺乏控制的GANs,甚至不希望地改变图像的语义结构。受将空间图像转换成多个频率分量的JPEG思想的启发,我们提出了频率空间域随机化(FSDR),它通过保持域不变频率分量(DIFs)和随机域可变频率分量(DVFs)来随机化频率空间中的图像。FSDR有两个独特的特点:1)它将图像分解为DIFs和DVFs,允许对它们进行显式访问和操作,以及更可控的随机化;2)对图像的语义结构和领域不变特征的影响最小。我们统计检验了FCs的域方差和不变性,并设计了一个通过迭代学习动态识别和融合DIFs和DVFs的网络。在多个领域泛化分割任务上的广泛实验表明,FSDR实现了优越的分割,并且其性能甚至与在训练中访问目标数据的领域自适应方法相当。
图1。我们提出的频率-空间域随机化(FSDR)通过离散余弦变换(DCT)将图像转换为多个频率分量(FCs),并识别域可变FCs(DVF)和域不变FCs(DIF)。这种显式隔离允许它随机化DVF,同时在训练中保持DIF不变,这通常会导致更具普遍性的模型。传统的空间域随机化(SSDR)在不分离和保留域不变特征的情况下将图像作为一个整体进行随机化,从而产生次优分割。绿色、蓝色和红色框分别表示DIF、DVF和随机化DVF。
1. Introduction(引言)
语义分割是计算机视觉研究中的一个长期挑战,其目的是为图像的每个像素指定一个类别标签。以深度学习为基础的方法[4,33]取得了巨大的成功,但代价是大量密集注释的训练数据[8],这些数据通常昂贵且耗时。绕过此限制的一种方法是在网络训练中使用带有自动生成标签的合成图像[47,46]。然而,由于域偏差和偏移[50,36,62,66,51],此类模型在应用于真实图像[72]时,性能通常会急剧下降。无监督域自适应(UDA)已被广泛研究,通过从标记的源域和未标记的目标域学习域不变/对齐特征来解决域不匹配问题[21,26,27,53,61,64,35,67,5,6]。但是,其培训需要目标域数据,这些数据在培训阶段可能很难收集,例如在各个城市的自动驾驶、机器人探索各种新环境等。此外,由于需要对每个新的目标域进行网络重新培训或微调,因此无法扩展。领域泛化已经引起越来越多的关注,因为它在训练中不需要目标领域数据就可以学习领域不变特征[71,39,11,31,28,29]。一种广泛采用的泛化策略是领域随机化(DR),它通过对抗性扰动、生成性对抗性网络(GANs)等对源领域图像进行随机化或样式化来学习领域不可知特征[54,65,71,45]。然而,大多数现有的DR方法都会在空间空间中对图像的整个光谱进行随机化,这往往会不希望地修改域不变特征。
我们提出了一种创新的频率空间域随机化(FSDR)技术,该技术将图像转换为频率空间,并通过识别和随机化域可变频率分量(DVF)来执行域泛化,同时保持域不变频率分量(DIF)不变。因此,FSDR克服了大多数现有的域随机化方法的限制,这些方法在空间空间中的全谱图像上工作,并且倾向于不希望地修改域不变特征,如图1所示。我们探索了两种不同的频域随机化方法。第一种是基于频谱分析的FSDR(FSDR-SA),通过实证研究确定DIF和DVF。第二种是基于频谱学习的FSDR(FSDR-SL),通过动态和迭代学习过程识别DIF和DVF。大量实验表明,FSDR大大提高了模型的泛化能力。此外,FSDR是对空间域泛化的补充,两者的结合一致地提高了模型泛化。
这项工作的贡献可以概括为三个方面。
首先,我们提出了一种创新的频率空间域随机化技术,该技术将图像转换为频率空间,并在保持DIF不变的情况下仅通过改变DVF实现域随机化。
其次,我们在频率空间设计了两种随机化方法,分别通过经验实验和动态学习有效地识别DVF和DIF。
第三,在多领域泛化任务上的大量实验表明,我们提出的频率-空间域随机化技术一致地实现了优越的语义分割。
3. Method(方法)
本节介绍我们的频率-空间域随机化(FSDR)技术,它包括三个主要部分:静态识别DIF和DVF的频谱分析、FSDR中研究DIF和DVF如何进行域随机化的频谱分析,以及显示域随机化可以通过频谱学习实现的频谱学习。
图2. 合成图像和真实图像的频谱分解可视化:第1列显示包含域变量和域不变信息的源图像(合成)和目标图像(真实)。第2列和第4列显示低通(即[0,0.04])和高通(即[0.64,1])过滤图像,这些图像主要捕获域变量信息,如颜色和样式。第3列和第4列显示中间通(即[0.04,0.16])和[0.16,0.64])过滤图像,主要捕获结构和形状等领域不变信息。第2行和第3行中的图像是第1行和第4行中图像突出显示区域的特写视图。
3.1. Problem Definition(问题定义)
本文主要研究语义分割中的无监督领域泛化(UDG)问题。给定带有C类像素级分割标签的源域数据
,我们的目标是学习一个语义分割模型,该模型能够很好地处理看不见的目标域数据Xt。基线模型仅使用原始源域数据进行训练:
式中,l()表示标准交叉熵损失。
3.2. Spectrum Analysis(频谱分析)
本小节描述了用于识别DIF和DVF的频谱分析。对于每个源域映像,我们首先用离散余弦变换(DCT)将其转换为频率空间,然后将转换后的信号使用带通滤波器BP分解为64个FCs
:
其中,代表DCT(离散余弦变换),
表示频率表示,
的定义见附录(没找到附录,有找到的小伙伴麻烦分享一下)。
表1. 在分类任务中,我们通过在源域(合成)上使用特定的FCs训练模型,并使用目标域图像(真实)进行测试,来分析和识别域可变频率分量和不变频率分量(FCs)。“源acc”表示源SYNTHIA数据集上的测试精度,“目标acc”表示目标ImageNet数据集上的测试精度。
我们通过一组对照实验确定了DIF和DVF,如表1所示。对于每个源图像,我们首先使用一个带阻滤波器过滤掉具有一定下限/上限阈值(在表1中的“Rejected bands”下)之间索引的FCs,然后使用剩余FCs训练模型。带阻滤波器
可通过以下方式定义:
其中I是一个64维二进制掩码向量,其值为1表示保留的变量,0表示丢弃的变量。
然后,我们将训练后的模型应用于目标图像,以检查过滤源域FCs的域不变性和泛化性。具体而言,目标数据性能的改善(或降级)意味着被移除的FCs是域变量(或不变),移除它们会阻止学习域变量(或不变)特征,并提高(或降级)泛化能力。通过使用不同的滤波器I进行光谱分析实验,DIFs和DVFs可以通过二进制掩码向量
进行识别和记录如下:
式中,表示评估预测精度的二元函数(正确预测返回1.0,否则返回0.0),
是来自源/目标域的完整FCs输入,
是来自源域的过滤输入
,
是源/目标地面真实值,
是一个64维的二进制向量,告诉我们FC是域不变的(即ISA=1)还是变量(即ISA=0)。频谱分析算法见附录A.1(找到附录的小伙伴记得分享啊!)
我们评估了一个synthetic-to-real 的通用图像分类任务(即裁剪的SYNTHIA到ImageNet)的光谱分析。表1显示了实验结果。
我们可以观察到,去除高频和低频分量都能明显提高模型的泛化能力。此外,我们在图2中可视化了源(即GTA)和目标(即Cityscapes)图像的光谱分解。我们可以观察到,与中频分量相比,低频和高频分量捕捉到更多的域变量特征(在GTA和Cityscapes之间)。注意:之前的几项工作在其他任务中成功地利用了不同的FC属性,如数据压缩[69]和监督学习[68]。
3.3. Spectrum Analysis in Domain Randomization(领域随机化中的频谱分析)
本小节介绍了使用进行基于频谱分析的频率-空间域随机化(FSDR-SA)。与现有的使用GANs进行图像样式化的领域随机化[71]不同,我们采用直方图匹配[43]进行在线图像翻译。具体来说,我们通过匹配源图像的累积密度函数,将源图像的频率空间系数直方图调整为与参考图像的频率空间系数直方图相似。对于
,这种基于直方图匹配的随机化仅适用于源图像的DVF,而不影响DIF。它增加了很少的额外参数和计算,并且比基于GAN的转换效率更高。图3的上半部分通过简单地替换FSDR-SA说明了FSDR-SA的工作原理。
给定一个源图像,对应的像素级标签
,域不变FCs掩码向量
和ImageNet 图像
作为随机化的参考,我们首先将
和
变换到频率空间,并将其分解为
。然后,我们通过匹配
和
的直方图,使用
对
的DVFs进行随机化。FSDR-SA函数
可以通过以下方式定义:
其中是直方图匹配函数,用于调整第一个输入的直方图以匹配第二个输入的直方图。FSDR-SA的训练损失可定义为:
图3。基于频谱学习的频率空间域随机化(FSDR-SL)概述:FSDR-SL是一个双向学习框架,包括两个可选的学习过程,即频谱学习(底部)和频率空间域随机化(顶部)。在频谱学习中,我们首先通过将一批真实图像分解为FCs的空间表示,然后将其输入分割模型,以便根据FCs激活向量和相应的预测熵识别DIFs和DVFs。学习的信息记录在二进制掩码向量
中。在FSDR中,我们首先通过
将合成图像和真实图像转换为频率空间,然后使用学习到的
通过直方图匹配对参考真实图像条件下的合成图像的DVFs进行随机化(
)。然后我们使用
将随机合成图像转换为空间表示,并通过分割损失优化分割模型。注:FSDR中的参考真实图像是从频谱学习中的真实图像中采样的,这形成了一个双向学习框架。
表示离散余弦变换(DCT)和逆DCT;
表示将输入分解为多个FCs的带通滤波器;绿色框表示DIFs,绿色箭头表示保持DIFs不变;蓝色框表示DVFs,蓝色箭头表示随机化DVFs;灰色箭头表示规则的数据流;黄色虚线表示随机图像的全谱可视化。
3.4. FSDR based on Spectrum Learning(基于频谱学习的FSDR)
本节介绍我们基于频谱学习的频率-空间域随机化(FSDR-SL),它通过迭代学习识别DIFs和DVFs,从而实现动态和自适应FSDR。我们使用熵[55]实现了FSDR-SL,该熵被广泛应用于不同的任务中,如半监督学习[77,15,57]、聚类[24,25]、领域自适应[67,79]等。
“熵”通过测量类重叠[15,77,67,79],即预测熵随着类重叠的增加而减小[3,40]。利用这一特性,FSDR-SL根据参考图像的预测熵识别DIF和DVF。具体而言,FSDR-SL通过使用源图像的分解多通道FCs进行训练。如果训练后的模型对真实目标图像产生低熵(即高置信度)预测,则表明目标图像的激活FCs具有良好的跨域语义不变性。在这种情况下,所使用的FCs被识别为DIFs,并将随机化应用于其他FCs,以鼓励网络在迭代训练过程中生成和学习不变特征。否则,不采取任何行动,因为不清楚未激活的FCs在语义上是变化的/不相关的还是不变的/相关的。注:图像转换过程与FSDR-SA中的过程相同。
FSDR-SL的思想与自训练的思想非常相似,它要么将低熵/高置信度预测[80,79]作为伪标签,要么直接最小化高熵/低置信度预测的熵[67]。FSDR-SL通过保持低熵FCs,同时在域随机化中随机化其余FCs,从而降低总体预测熵。具体来说,我们首先将一批ImageNet图像转换为FCs的空间表示
,如图3底部所示。然后,我们将它们输入分割模型G中,以便根据FCs的激活向量和相应的预测熵识别DIFs和DVFs。学习的信息记录在二进制掩码向量
中,如下所示:
其中表示一个批次的平均预测熵,
表示一个批次的平均输入FC激活向量,B表示批次大小,RS表示排名,并选择FCs的Top p部分的熵加权激活值作为域不变FCs;
是一个192长度的二进制向量,其值记录每个FC是域不变(即ISL=1)还是域变量(即ISL=0)。频谱学习算法包含在附录A.2中。
给定一个源域图像,对应的像素级标签
和作为随机化参考的ImageNet 图像
,我们首先将
变换到频率空间,并将其分解为
。
的DVFs 可以使用
通过直方图匹配进行随机化。FSDR-SL函数
可以通过以下方式定义:
式中,表示等式4中使用的直方图匹配函数。FSDR-RL训练损失可定义如下:
注意FSDR中的参考真实图像是从已执行频谱学习的真实图像批次中采样的。一旦用完,训练将回到频谱学习过程。因此,FSDR-SL形成了一个双向学习框架,如图3所示,包括两个可选步骤: 1)在当前模型上使用真实图像批处理执行频谱学习;2) 使用频谱学习参考图像执行FSDR,并更新模型。附录A.3中提供了FSDR-SL算法。
结合频谱分析和频谱学习,拟定FSDR的总体培训目标可定义如下:
4. Experiments(实验)
4.1. Datasets(数据集)
任务;
任务。
4.2. Implementation Details
4.3. Ablation Studies
4.4. Comparisons with the State-of-Art
4.5. Discussion
5. Conclusion
本文提出了一种频域-空域随机化(FSDR)技术,该技术在保持域不变的情况下,通过识别和随机化域变异FCs(DVFs)在频域对图像进行随机化。提出的FSDR有两个独特的特点:1)它将图像分解为DIFs和DVFs,允许显式访问和操作它们,并更好地控制图像随机化;2) 它对图像语义和域不变特征的影响最小。具体来说,我们设计了基于频谱分析的FSDR(FSDR-SA)和基于频谱学习的FSDR(FSDR-SL),两者都可以有效地识别DIFs和DVFs。FSDR实现了卓越的分割性能,可以轻松地集成到最先进的领域自适应和泛化网络中,并持续改进领域泛化。