一.研究背景
目前图像翻译问题的解决方案一般是基于Encoder-Decoder结构,即将原域图像编码后再解码到目标域中,然而这种方案在原域与目标域图像具有显著不同结构或重叠区域极少的情况下时翻译效果会大打折扣。作者发现之前利用语义图指导图像翻译的模型对于图像细节的翻译效果不佳,作者认为这是由于语义图一般是由深度预训练模型产生,并不能保证像素级的准确性。基于此作者提出了级联语义引导下的基于多通道注意力选择机制的图像翻译Selection GAN,其将图像翻译分为两个阶段,第一个阶段用于产生粗粒度级的翻译结果,第二个阶段通过多通道注意力选择机制产生更细致的结果(如图1所示)。
图1.效果概览
二.模型介绍
Selection GAN将图像翻译的过程分为两个阶段(如图2所示),第一阶段作者提出了一个级联语义引导的生成器子网络(Gi),该网络是将原域图像(Ia)以及目标域语义图(Sg)级联后的结果翻译至目标域图像(Ig’),该生成图像Ig’作为语义生成器(Gs)的输入去生成目标域的语义图(Sg’)。为了保证Gi和Gs的生成效果,这里使用重建损失来限制生成器,即Ig≈Ig’,Sg≈Sg’,另外目标域语义图(Sg)是由深度预训练模型产生。
图2.模型概览
经过第一阶段后模型产生了粗粒度级的翻译结果Ig’,在