视觉理解论文系列(二)Heterogeneous Graph Learning for Visual Commonsense Reasoning

本文提出了HGL框架,通过视觉到答案和问题到答案的异构图学习,结合上下文投票机制,解决视觉语言任务中视觉域与语言域的高度对齐问题,尤其适用于视觉常识推理。实验表明,这种方法能有效捕捉特定语义信息,提升模型表现。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

背景

本篇的工作来自中山大学梁晓丹组,论文被NeurIPS 2019接收。论文介绍到,视觉语言任务(visual-language task)的解决方案粗略地分成两大类型,一种是强大的端到端结构(end-to-end),如Bert,bottom-up and top-down模型,用于学习更加具有鉴别性的特征表示;另一种是发掘视觉对象(visual objects)的内部联系(intra-relationship),即构建同构图(homogeneous graph)的方式,对视觉对象之间的关系进行建模。
目前存在的方法的不足之处:难以满足VCR任务中需要视觉域与语言域的高度对齐这一需求。本文提出利用异构图学习,通过图内和图间的推理将视觉域-语言域桥接起来。

贡献

提出HGL框架,包含两个异构图模块VAHG(visual-to-answer heterogeneous graph和QAHG(question-to-answer heterogeneous graph),此外,针对缺乏标签的特定语义信息(如"rainy day")提出了一种上下文投票机制(contextual voted module)来捕捉这种特定的语义信息,作为图像中常规object特征的补充,为全局推理提供了一个新的视角.

框架

在这里插入图片描述
简要介绍:
通过resnet50提取的object特征与seq2seqEncoder(LSTM)处理的文本特征利用图学习进行contextualization,分别构建了VAHG与QAHG两个(跨域)异构图,两张异构图的输出最终通过全连接进行合并,之后送入到推理模块,模型最终的输出是一个四维向量(即四个选项的概率分数值) ,张量的流动如下图所示.
在这里插入图片描述
异构图模块的初始输入,其中 X a B ∗ d X_a^{B*d} XaBd

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值