论文小综UsingExternal - 论文参考文献 - Powered by Discuz!NT Archiver

TUhjnbcbe - 2020/12/20 2:23:00

本文作者：陈卓，浙江大学在读博士，主要研究方向为图神经网络和知识图谱表示学习

我们生活在一个多模态的世界中。视觉的捕捉与理解，知识的学习与感知，语言的交流与表达，诸多方面的信息促进着我们对于世界的认知。作为多模态领域一个典型的场景，VQA（视觉问答）顾名思义，也就是结合视觉的信息来回答所提出的问题。其于15年首次被提出[1]，涉及的方法从最开始的联合编码，到双线性融合，注意力机制，组合模型，场景图，再到引入外部知识，进行知识推理，以及使用图网络，近年来取得了长足发展。传统的VQA仅凭借视觉与语言信息的组合来回答问题，而近年来许多研究者开始探索外部信息对于解决VQA任务的重要性。

如上图所示，这里的VQApair中，要回答问题“地面上的红色物体能用来做什么”，要想做出正确的回答“灭火”，所依靠的信息不仅来源于图片上所识别出的“消防栓”，还必须考虑到来自外部的事实（知识）“消防栓能灭火”作为支撑。这就是一个典型的VQA上应用外部知识的场景。

接下来我将按时间顺序结合5篇论文简述在VQA上应用外部知识的方法，做相应的梳理。

AskMeAnything:Free-FormVisualQuestionAnsweringBasedonKnowledgeFromExternalSources发表会议：CVPR论文链接：