本篇论文的工作也是来自杭州电子科技大学。在上一篇论文MCAN的基础上,对多模态特征的融合方式作进一步讨论。该篇文章已被ACM MM2020接收。
摘要
设计有效的神经网络结构是深度多模态学习的关键。现有的工作大多将关注点聚焦在单一任务上并手动进行网络结构的设计,这样的获得的模型均是任务特定的并且在多个任务间泛化能力弱。本文提出一种通用的深度多模态神经结构搜索框架(deep multimodal neural architecture search framework,MMnas) 用于多模态的多任务学习。在给定多模态输入的情况下,首先定义一组基本运算(算子),然后构造一个基于深度编码-解码器(deep encoder-decoder)的统一backbone。
在统一主干网络(unified backbone)的基础上,我们附加了任务特定的头(task-specific heads)来处理不同的多模态学习任务。之后通过使用基于梯度的NAS算法,对不同任务的最优结构进行了有效学习。广泛的消融研究、综合分析和对比实验结果表明,获得的MMnasNet在三个多模态学习任务(超过5个数据集)中,包括视觉问题回答(VQA)、图像-文本匹配(image-text matching,ITM)和视觉定位(visual-grounding,VG),显著优于现有的最先进的方法。
引言
本文设计了一个通用的框架,可以自适应地学习各种任务的最优网络结构,而不是预先训练一个通用的模型用于各种任务(与pre-training一类表示学习的方法有所不同),受到MCAN模型的启发,本文预先定义了一个操作算子集合作为基本单元,提供给NAS算法进行搜索。
贡献点:
提出了一种新的广义多模态学习范式,该范式使用神经结构搜索(NAS)算法来搜索不同多模态任务的最优结构。与使用大规模数据预先训练广义模型的多模态方法相比,我们的范式可以更好地捕获每个任务的特征,在参数规模上更具效率。
方法
NAS使用的算子
预定义的算子包括self-attention (SA), guided-attention (GA), feed-forward network (FFN), relation self-attention (RSA),这里RSA仅用作图像模态,R是一个关系矩阵,例如R ∈ R m × m × d \in\R^{m\times m\times d} ∈Rm×m×d,将m个region间的关系进行编码,关系特征是d维向量。
这几个算子定义的操作如下
MHA是multi-head attention
M H A ( Q , K , V , R ) = [ h e a d 1 , h e a d 2 , . . . , h e a d n ] W 0 MHA(Q,K,V,R) = [head_1,head_2,...,head_n]W^0 MHA(Q,K,V,R)=[head1