本文来源公众号“arXiv每日学术速递”,仅用于学术分享,侵权删,干货满满。
原文链接:强强联合:CNN与Transformer融合创新提升模型性能!!
CNN在图像处理中有着良好的表现,能够处理复杂的图像特征,其在处理局部特征方面表现出色,但是在处理全局信息时表现较弱。而Transformer在NLP领域中具有很好的表现,能够处理序列数据的建模和生成,其在处理全局信息方面具有优势,但是对于局部信息处理能力相对较弱。通过将CNN与Transformer进行结合,可以有效地捕捉与处理图像中的局部和全局信息,从而提高模型的性能和效果。
例如,CMT-S通过这两者的结合,开发出了一种在图像识别任务上性能优异的网络,在ImageNet上的top-1准确率达到了83.5%,同时在FLOPs上比现有的DeiT模型小14倍,比EfficientNet小2倍。
ScribFormer: Transformer Makes CNN Work Better for Scribble-based Medical Image Segmentation
方法:本文提出了一种名为ScribFormer的新方法,用于基于涂鸦的医学图像分割。该方法的核心在于结合了卷积神经网络和Transformer模型的优势,通过一个三