背景
本篇的工作来自中山大学梁晓丹组,论文被NeurIPS 2019接收。论文介绍到,视觉语言任务(visual-language task)的解决方案粗略地分成两大类型,一种是强大的端到端结构(end-to-end),如Bert,bottom-up and top-down模型,用于学习更加具有鉴别性的特征表示;另一种是发掘视觉对象(visual objects)的内部联系(intra-relationship),即构建同构图(homogeneous graph)的方式,对视觉对象之间的关系进行建模。
目前存在的方法的不足之处:难以满足VCR任务中需要视觉域与语言域的高度对齐这一需求。本文提出利用异构图学习,通过图内和图间的推理将视觉域-语言域桥接起来。
贡献
提出HGL框架,包含两个异构图模块VAHG(visual-to-answer heterogeneous graph和QAHG(question-to-answer heterogeneous graph),此外,针对缺乏标签的特定语义信息(如"rainy day")提出了一种上下文投票机制(contextual voted module)来捕捉这种特定的语义信息,作为图像中常规object特征的补充,为全局推理提供了一个新的视角.
框架
简要介绍:
通过resnet50提取的object特征与seq2seqEncoder(LSTM)处理的文本特征利用图学习进行contextualization,分别构建了VAHG与QAHG两个(跨域)异构图,两张异构图的输出最终通过全连接进行合并,之后送入到推理模块,模型最终的输出是一个四维向量(即四个选项的概率分数值) ,张量的流动如下图所示.
异构图模块的初始输入,其中 X a B ∗ d X_a^{B*d} XaB∗d