背景
研究机构:厦门大学纪荣嵘组
论文接收于2020ACM MM
摘要
本文将NAS应用于VQA问题中,提出一种k-Armed Bandit based NAS(KAB-NAS)方法,简单来说即处理多模态特征的L个层由single-shot的方法搜索得出,每一层都提供K个候选算子而得名。此外,作者提出一个Automatic Graph Attention Network (AGAN)模块,通过三种图结构以及self-attention机制来学习图上的信息传播,是对传统的GCN的改进。
NAS部分(非本篇的重点)
AGAN 自动图注意力网络
几个符号:假定进入AGAN的特征表示为 图像特征
F
I
∈
R
K
×
d
F_I\in \R ^{K\times d}
FI∈RK×d ,问题特征
F
Q
∈
R
T
×
d
F_Q\in\R^{T\times d}
FQ∈RT×d,故构建的multi-modal Graph
G
=
(
V
,
E
)
G=(V,E)
G=(V,E),V是所有的节点构成的集合(包含image regions与 words of question)。E是节点之间构成的边(貌似没有提这个边矩阵怎么计算得到?)。
图G中所有的顶点特征即
F
g
∈
R
(
K
+
T
)
×
d
F_g\in\R^{(K+T)\times d}
Fg∈R(K+T)×d,假设使用了图卷积的层数为
N
N
N,每一层操作表示为G(.),来更新顶点的特征表示。那么第
t
t
t层的特征
F
g
(
t
)
F_{g}^{(t)}
Fg(t)可形式化为:(作者在这里还利用了一下short cut机制)
更具体地,
作者讲到
A
A
A是基于边集E得到的邻接矩阵(值都是binary的),
D
D
D是节点的度矩阵(只有主对角线上有值,其余位置是0),
σ
(
.
)
\sigma(.)
σ(.)是激活函数,
W
g
(
t
)
W_g^{(t)}
Wg(t)是第t层图卷积的可学习参数。
一直到这里,可以看出仍然是常规的GCN网络。
D
−
1
A
D^{-1}A
D−1A视为拉普拉斯矩阵。这种常规的GCN的局限性前面的博客也提到过:每个顶点视其各个邻居为同等优先级,无法为不同的邻居分配不同的权重。也即
D
−
1
A
F
g
(
t
−
1
)
D^{-1}AF_g^{(t-1)}
D−1AFg(t−1)相当于对每个顶点,将来自其邻居节点的特征进行平均加权。 然而,这种平均的聚合并不能反映VQA图中节点之间的相互关系。
作者的改进思路:利用self-attention机制,将邻接矩阵
A
A
A改造成一个加权处理的新邻接矩阵
A
w
A_w
Aw
改造方式如下
其中
W
i
,
W
j
W_i,W_j
Wi,Wj是可学习矩阵。
同样地,受transformer的启发,这里令图卷积的每一层输出类似multi-head的效果,利用multi-head 多套参数的输出 concate后作为第
t
t
t个 graph layer的输出。
即将
F
g
(
t
−
1
)
W
i
和
W
j
F
g
(
t
−
1
)
F_g^{(t-1)}W_i和W_jF_g^{(t-1)}
Fg(t−1)Wi和WjFg(t−1)结果划分成K份(相当于要使用K个heads),这样在每个graph layer上得到K个加权邻接矩阵
[
A
w
0
,
A
w
1
,
.
.
.
,
A
w
k
]
[A_w^0,A_w^1,...,A_w^k]
[Aw0,Aw1,...,Awk],最终,将这K个heads的输出concatenate。所以,最终
G
a
g
a
n
G_{agan}
Gagan的形式表示如下
||代表concatenate操作。同时,作者在每一个graph layer最后还使用了FFN。
说完了self-attention结构,再来说说上文提到的三种图结构。三种结构是指使用了不同形式的邻接矩阵A,以确定不同的图上信息传播方式。
Dense graph structure 密集图
邻接矩阵A中的值全设为1。令图上各个节点间均有相关关系。
Co-graph structure 协同图
用于捕获不同模态间节点的联系。
Separate graph structure 稀疏图
用于捕捉模态内各节点的联系。邻接矩阵A中的内容为
实验结果
每个graph layer该使用上面提到的具体哪个图结构,由NAS搜索得出。
NAS搜索空间中的候选算子
KAB-NAS与手工设计网络结构对比
结论
在本文中,我们提出了一种新颖而有效的VQA网络架构搜索(NAS)算法,称为 (k-Armed Bandit based NAS),该算法将每一层的设计视为一个K选一问题,并通过大量的一次性采样来估计每个候选设计。为了建立有效的搜索空间,我们还提出了一种具有三种新的图结构的自动图注意网络,它可以用来决定信息在统一正向结构中的传播方式。