背景
这篇论文的工作来自密歇根州立大学,接收于ACL2020
摘要
本文的工作要解决的是challenge是在视觉-语言多模态数据上的学习和推理。作者指出,在多模态任务上,identify the relations between modalities,并在其上进行组合和推理是decision making的关键。
另外,作者提到,在处理跨模态数据的学习表示和实现目标任务的推理方面有几个具有挑战性的研究方向(第二点正是本文的出发点):
1.alignment of representation spaces for multi-modal
2.design architectures with ability to capture high-order relations
3.Using pre-trained models to make most use of minimal data
个人理解,作者在阐述motivation时篇幅过于简略,本文要学习的样本representations是基于relevance scores的,并且说这个idea是受IR模型的启发,作者一再强调relevance patterns的重要性(原文说与注意力机制、transformer一样都很重要),却没有例子说明发掘relations具体用于解决哪块问题。
本文的贡献点,主要是对关系模式的探索,实验证明了发掘实体间联系Entity Relevance和关系间联系Relational Relevance在多模态任务中的有效性。
架构
常规的输入方式,图像:object-level features ROIs 2048-dim
文本 使用bert的格式。
图文各自先经过single-modal transformer做自模态的items联系建模。之后出来的enhanced-features送入cross-modal Transformer中, 输入格式为
S=[s1t,...,sNtt,s1v,...,sNvv]∈Rd×(Nt+Nv)S=[s_1^t,...,s_{N^t}^t,s_1^v,...,s_{N^v}^v] \in \R^{d\times(N_t+N_v)}S=[s1t,...,sNtt,s1v,...,