摘要
在VQA任务中,设计一个有效的Co-attention模块来将问题中的关键词和图像中的关键区域联系起来是解决问题的核心。此前,大多数成功的联合注意力学习尝试都是通过使用浅层模型来实现的,深度联合注意模型与浅层模型相比几乎没有改善。(浅层模型,模态之间的交互不够充分)本文提出Modular Co-Attention Network (MCAN),该网络由一系列Modular Co-Attention (MCA) layers级联组成。每个MCA结构包含图像模态、文本模态的自注意力(self-attention,SA)以及来自文本的并作用于图像模态的引导注意力(question-guided-attention of images,GA)这两种基础的attention单元。实验结果表明,MCAN的性能明显优于先前的先进技术。
引言
作者认为这些deep co-attention模型的瓶颈在于缺乏在各模态内同时建模较为密集的自注意力(模态内的self-attention力度不够)。受Transformer系列模型结构的启发,使用两个通用的attention单元(SA,建模模态内交互;GA,建模模态间交互,这里主要是word-to-region),通过SA和GA的组合,来构成模块化的共注意力结构。
方法
两种基本的attention单元SA与GA