视觉理解论文系列(一)——ERNIE-VIL

ERNIE-VIL是百度的预训练模型,通过结合场景图预测任务,增强视觉-语言的细粒度语义对齐。模型通过物体预测、属性预测和关系预测学习到跨模态的详细语义,提升理解能力。实验结果显示,该方法能有效提升视觉-语言任务的性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

简介

ERNIE-VIL是百度出品的知识增强视觉-语言预训练模型,首次将场景图知识融入到多模态预训练中,大幅提升了机器的“理解能力”。通过在预训练阶段加入场景图预测任务,使得模型能更精准的把握视觉-语言跨模态间的细粒度对齐。
论文观点,细粒度的语义对于区分不同对象、不同属性和不同关系的场景至关重要。因此,更好的视觉语言联合表示应该表现出不同模式之间详细的语义对齐。
在这里插入图片描述
以上这些样本中,只有物体、属性、关系上的细微差别,如果不能很好的抓住这些细粒度语义特征,将无法较好的把这些数据样本区分开来,导致在许多的视觉-语言任务中不会有很好的效果。

融合场景图知识的ERNIE-VIL


【A woman in a blue dress is putting her little white cat on top of a brown car in front of her house.】

当我们看到一张图片时,首先关注的是图像中的物体(Objects)和特点属性(Attributes)以及物体间的关系(Relationships)。以此图为例,人、车、房子、猫、树等构成了图片内容的基本元素;而物体的属性,如白色的猫、穿蓝色衣服的女人、棕色的汽车则是对物体做了更加精细的刻画;物体间的位置和语义关系,“猫在车上”、“车在房子前面”等构成了物体间的关联。这说明了对象、属性、关系共同构成了描述视觉场景的细粒度语义(Detailed Semantics)。
本篇论文的切入点在于如何让模型学到更好的细粒度特征表示。首先,基于从文本[1]解析出的场景图,ERNIE-VIL提出了3个多模态场景图预测(Scene Graph Prediction)任务,分别是:
物体预测(Object Prediction):随机选取图像中的一部分物体,如图中的"house",将其在句子中对应的词进行掩码处理,模型根据文本上下文和图片对被掩码的部分进行预测。损失函数设计,最小化负对数似然:
L o b j ( θ ) = − E ( w , v )   D l o g ( P ( W o i ∣ W \ _ o i , V ) ) L_{obj(\theta)}=-E_{(w,v)~D}log(P(W_{o_i}|W_{\backslash \_o_i},V)) Lobj(θ)=E(w,v) D

ERNIE-Bot-turbo是种基于百度AI技术ERNIE(Enhanced Representation through Knowledge Integration)的聊天机器人,它可以进行智能对话和知识问答。ERNIE-Bot-turbo在原有ERNIE-Bot的基础上,通过使用更大的预训练模型ERNIE2.0和更多的训练数据,提高了对话和问答的准确性和流畅性,同时还增加了多轮对话和情感分析等功能。以下是关于ERNIE-Bot-turbo的些信息: - ERNIE-Bot-turbo的提问方式与普通聊天机器人相同,用户可以直接在对话框中输入问题或语句,ERNIE-Bot-turbo会自动进行分析并给出回答。 - ERNIE-Bot-turbo的知识库涵盖了广泛的领域,包括文化、科技、体育、社会、历史等多个方面,用户可以向ERNIE-Bot-turbo提出不同领域的问题。 - ERNIE-Bot-turbo支持多轮对话,可以针对用户的问题进行追问和回答,实现更加流畅的对话。 - ERNIE-Bot-turbo还具有情感分析功能,可以识别用户的情感状态并根据情感状态给出不同的回答,增强了对话的真实感和情感交互性。 下面是个样例对话: 用户:你好,请问你叫什么名字? ERNIE-Bot-turbo:你好,我是ERNIE-Bot-turbo,很高兴为您服务。 用户:你会哪些知识领域? ERNIE-Bot-turbo:我的知识库涵盖了广泛的领域,包括文化、科技、体育、社会、历史等多个方面,您可以向我提出不同领域的问题。 用户:你会情感分析吗? ERNIE-Bot-turbo:是的,我能够识别您的情感状态并根据情感状态给出不同的回答,增强了对话的真实感和情感交互性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值