图学习(二)K-armed Bandit based Multi-modal Network Architecture Search for Visual Question Answering

本文提出KAB-NAS方法,结合多模态特征和图学习解决VQA问题。通过自动图注意力网络(AGAN),利用三种图结构(密集、协同、稀疏)改进传统GCN,提升信息传播效率。实验表明,KAB-NAS在VQA任务上优于手工设计的网络结构。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

背景

研究机构:厦门大学纪荣嵘组
论文接收于2020ACM MM

摘要

本文将NAS应用于VQA问题中,提出一种k-Armed Bandit based NAS(KAB-NAS)方法,简单来说即处理多模态特征的L个层由single-shot的方法搜索得出,每一层都提供K个候选算子而得名。此外,作者提出一个Automatic Graph Attention Network (AGAN)模块,通过三种图结构以及self-attention机制来学习图上的信息传播,是对传统的GCN的改进。

NAS部分(非本篇的重点)

在这里插入图片描述

AGAN 自动图注意力网络


几个符号:假定进入AGAN的特征表示为 图像特征 F I ∈ R K × d F_I\in \R ^{K\times d} FIRK×d ,问题特征 F Q ∈ R T × d F_Q\in\R^{T\times d} FQRT×d,故构建的multi-modal Graph G = ( V , E ) G=(V,E) G=(V,E),V是所有的节点构成的集合(包含image regions与 words of question)。E是节点之间构成的边(貌似没有提这个边矩阵怎么计算得到?)。
图G中所有的顶点特征即 F g ∈ R ( K + T ) × d F_g\in\R^{(K+T)\times d} FgR(K+T)×d,假设使用了图卷积的层数为 N N N,每一层操作表示为G(.),来更新顶点的特征表示。那么第 t t t层的特征 F g ( t ) F_{g}^{(t)} Fg(t)可形式化为:(作者在这里还利用了一下short cut机制
在这里插入图片描述
更具体地,
在这里插入图片描述
作者讲到 A A A是基于边集E得到的邻接矩阵(值都是binary的), D D D是节点的度矩阵(只有主对角线上有值,其余位置是0), σ ( . ) \sigma(.) σ(.)是激活函数, W g ( t ) W_g^{(t)} Wg(t)是第t层图卷积的可学习参数。
一直到这里,可以看出仍然是常规的GCN网络 D − 1 A D^{-1}A D1A视为拉普拉斯矩阵。这种常规的GCN的局限性前面的博客也提到过:每个顶点视其各个邻居为同等优先级,无法为不同的邻居分配不同的权重。也即 D − 1 A F g ( t − 1 ) D^{-1}AF_g^{(t-1)} D1AFg(t1)相当于对每个顶点,将来自其邻居节点的特征进行平均加权。 然而,这种平均的聚合并不能反映VQA图中节点之间的相互关系。

作者的改进思路:利用self-attention机制,将邻接矩阵 A A A改造成一个加权处理的新邻接矩阵 A w A_w Aw
改造方式如下
在这里插入图片描述
其中 W i , W j W_i,W_j WiWj是可学习矩阵。
同样地,受transformer的启发,这里令图卷积的每一层输出类似multi-head的效果,利用multi-head 多套参数的输出 concate后作为第 t t t个 graph layer的输出。
即将 F g ( t − 1 ) W i 和 W j F g ( t − 1 ) F_g^{(t-1)}W_i和W_jF_g^{(t-1)} Fg(t1)WiWjFg(t1)结果划分成K份(相当于要使用K个heads),这样在每个graph layer上得到K个加权邻接矩阵 [ A w 0 , A w 1 , . . . , A w k ] [A_w^0,A_w^1,...,A_w^k] [Aw0,Aw1,...,Awk],最终,将这K个heads的输出concatenate。所以,最终 G a g a n G_{agan} Gagan的形式表示如下
在这里插入图片描述
||代表concatenate操作。同时,作者在每一个graph layer最后还使用了FFN。
说完了self-attention结构,再来说说上文提到的三种图结构。三种结构是指使用了不同形式的邻接矩阵A以确定不同的图上信息传播方式。

Dense graph structure 密集图

邻接矩阵A中的值全设为1。令图上各个节点间均有相关关系。

Co-graph structure 协同图

用于捕获不同模态间节点的联系。
在这里插入图片描述

Separate graph structure 稀疏图

用于捕捉模态内各节点的联系。邻接矩阵A中的内容为
在这里插入图片描述

实验结果

每个graph layer该使用上面提到的具体哪个图结构,由NAS搜索得出。
NAS搜索空间中的候选算子
在这里插入图片描述
KAB-NAS与手工设计网络结构对比
在这里插入图片描述

结论

在本文中,我们提出了一种新颖而有效的VQA网络架构搜索(NAS)算法,称为 (k-Armed Bandit based NAS),该算法将每一层的设计视为一个K选一问题,并通过大量的一次性采样来估计每个候选设计。为了建立有效的搜索空间,我们还提出了一种具有三种新的图结构的自动图注意网络,它可以用来决定信息在统一正向结构中的传播方式。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值