论文参考文献

首页 » 常识 » 常识 » 论文小综UsingExternal
TUhjnbcbe - 2020/12/20 2:23:00

本文作者:陈卓,浙江大学在读博士,主要研究方向为图神经网络和知识图谱表示学习

我们生活在一个多模态的世界中。视觉的捕捉与理解,知识的学习与感知,语言的交流与表达,诸多方面的信息促进着我们对于世界的认知。作为多模态领域一个典型的场景,VQA(视觉问答)顾名思义,也就是结合视觉的信息来回答所提出的问题。其于15年首次被提出[1],涉及的方法从最开始的联合编码,到双线性融合,注意力机制,组合模型,场景图,再到引入外部知识,进行知识推理,以及使用图网络,近年来取得了长足发展。传统的VQA仅凭借视觉与语言信息的组合来回答问题,而近年来许多研究者开始探索外部信息对于解决VQA任务的重要性。

如上图所示,这里的VQApair中,要回答问题“地面上的红色物体能用来做什么”,要想做出正确的回答“灭火”,所依靠的信息不仅来源于图片上所识别出的“消防栓”,还必须考虑到来自外部的事实(知识)“消防栓能灭火”作为支撑。这就是一个典型的VQA上应用外部知识的场景。

接下来我将按时间顺序结合5篇论文简述在VQA上应用外部知识的方法,做相应的梳理。

AskMeAnything:Free-FormVisualQuestionAnsweringBasedonKnowledgeFromExternalSources发表会议:CVPR论文链接:
1
查看完整版本: 论文小综UsingExternal