智能革命的风暴眼:大模型与知识图谱的终极联盟,重塑AI未来格局!
?作者
Haoyang
来源
神州问学
一、背景介绍
1.LLM的最新进展
以ChatGPT为代表的生成式大模型在“大参数+大数据+大算力”的支持下,使得模型能够学习、理解更多的特征和模式,具备了惊人的自然语言理解能力,在意图识别、推理、语言生成等各个自然语言相关的通用的处理任务中取得了前所未有的成绩。
从发展路线来看如图1所示,从早期的Word2Vec到预训练模型ELMo等的早期探索,再到Bert、GPT系列的惊艳登场,ChatGPT的一飞冲天和众多基座模型的百花齐放,大模型不仅在参数规模和预训练数据规模上不断增加,也从初期的语言模型延伸发展到多模态、语音、图像、视频等各个领域。前段时间OpenAI提出的Sora文生视频模型更是给人们带来前所未有的体验。基于LLM的智能体更是成为研究热点,让具有感知、控制和行动的能力智能体在通往AGI的道路上不断发展、进化。
图1:大语言模型进化树
此外,大模型服务平台也正向个人开放,并在商业落地应用上延伸,为用户提供了多种使用大模型的途径。比如,OpenAIAPI最先为公众开放访问平台;来自百度的文心一言等加入插件,通过外部工具、服务的调用提高了完成下游任务的能力等等。
然而,大模型技术仍处于初级研究阶段,存在许多亟需解决的问题,例如大模型生成内容与现实世界事实或用户输入不一致产生“幻觉”;作为黑盒模型,在参数中隐式地表示知识而很难解释和验证大模型掌握的知识和推理结果;在通用语料库上训练的大模型缺乏特定领域知识而无法应用到垂直领域等等。总的来说,这些问题包括但不限于模型的可解释性、模型机理研究、与现实世界的可交互性、安全可控性、伦理道德问题以及如何对接下游任务等。
2.知识图谱在促进大模型当下发展的重要性
如图2所示,知识图谱通常以三元组的方式存储现实世界中的事实,即(头实体、关系、尾实体),将实体表示为节点、关系表示为节点之间相连的边,所构成的描述语义关系的图即为知识图谱,是一种结构化的知识表示方式。
图2:不同类别知识图谱的例子,即百科知识图谱、常识知识图谱、特定领域知识图谱和多模态知识图谱
知识图谱具有准确而又显式的知识,并能通过符号推理产生可解释的结果。且现有知识图谱往往针对特定领域或下游任务而构建,具备精确可靠的领域知识。但已有知识图谱构建方法难以处理现实世界中动态变化的事实,无法有效建模未知实体来表示新的知识,此外它也忽略了文本背景中丰富的文本信息。
为此,如何结合大模型和知识图谱,结合各自的优势取长补短、相互促进也是最近研究的热点。他们各自的优势和缺点总结如图3所示。
图3:大模型与知识图谱各自优缺点汇总
本文总结了统一大模型和知识图谱的前瞻性路线图,以利用各自的优势并克服每种方法的局限性,最终用于各种下游任务。我们对结合路线进行总结并进行详细的分类如图4所示,并指出目前挑战和未来发展方向。
图4:大语言模型和知识图谱结合路线的细粒度分类
简言之,大模型+知识图谱的结合路线主要分为3类:
1)基于知识图谱增强的大模型
a.知识图谱在大模型预训练中的作用
b.推理过程中如何利用知识图谱提升大模型性能
c.通过知识图谱提高大模型可解释性
2)基于大模型增强的知识图谱
a.利用大模型改善知识图谱的嵌入表示
b.基于大模型增强的知识图谱补全
c.基于大模型增强的知识图谱的构建
d.基于大模型增强的知识图谱文本生成
e.基于大模型和知识图谱的高效问答系统
3)协同增强:大模型和知识图谱的融合
a.协同知识表示的构建
b.协同推理
二、大模型+知识图谱的结合路线
1.知识图谱增强大语言模型
大语言模型虽然能在大规模语料库中学习知识并在各种NLP任务中表现突出,但经常出现“幻觉”问题且缺乏可解释性。为了解决这些问题,有研究人员提出用知识图谱来增强大模型。
例如,在预训练阶段可以将知识图谱融入到大模型中,这样可以从知识图谱中学习知识;推理阶段也可将知识图谱融入到大模型中,通过从知识库中检索知识,可以显著提高大模型在特定领域的性能;同样也可利用知识图谱对事实的可解释性提高大模型的推理过程中的可解释性。表1总结了将知识图谱集成到大模型中的经典工作。下面,本文将具体从这三个方面进行的工作进行分类并解读。
表1:基于知识图谱增强的大模型方法总结
Ⅰ.知识图谱在大语言模型预训练中的作用
现有大模型大多依赖于大规模语料库的无监督训练,尽管这些模型在很多下游任务中性能优异,但它们通常缺乏与现实世界相关的实践知识。先前的工作中,将知识图谱整合到大模型预训练中可以分为三类:
(1)将知识图谱整合到训练目标中
这类研究重点是设计新颖的对知识敏感的训练目标。一个直观的方法是在预训练目标暴露更多的知识实体。例如,GLM利用知识图谱的结构去分配一个掩码概率。具体而言,能在一定跳数内到达的实体被认为是学习中最重要的实体,在预训练过程中它们被赋予了更高的掩码概率。此外,E-BERT进一步控制了token级别和实体级别训练损失之间的平衡。训练损失值被用来作为token和实体学习过程中的反映,动态地决定了它们各自在下一轮训练过程中的比例。SKEP也类似的将情感知识注入到大模型预训练中。
另一类研究利用了知识与输入文本之间的联系。如图5所示,ERNIE提出了一种新的单词-实体对齐目标作为预训练目标。它将文本中提到的句子和相应的实体都输入到大模型中,然后训练大模型预测文本token和知识图谱实体之间的对齐链接。同样,KALM通过合并实体嵌入来增强输入的token,除了token-only级别的训练目标外,还包含实体预测的预训练任务,该方法旨在提高大模型获取实体相关知识的能力。而KEPLER直接将知识图谱嵌入的训练目标和预训练的掩码token目标一起在基于Transformer的共享编码器中。DeterministicLLM侧重于预训练语言模型去捕捉确定的事实知识。它只将具有确定性实体的span进行掩码作为问题,并引入了额外的线索对比学习和线索分类目标。WKLM首次用其他相同类型的实体替换文本中的实体,然后将他们喂到大模型中。进一步对模型进行预训练来区分这些实体是否被替换。
图5:通过文本-知识对齐损失将知识图谱的信息注入到大模型训练目标中,h表示大模型生成的隐藏表示。
(2)将知识图谱集成到大模型输入中
如图6所示,该类研究重点是将相关知识子图引入到大模型输入中。例如,给定一个知识图谱的三元组和相应的句子,ERNIE3.0将三元组表示为一个token序列并直接将他们与句子联系起来。它进一步随机屏蔽三元组中的关系token或者句子中的token,以便更好地将知识与文本表示结合起来。然而,这种直接的知识三元组链接起来的方法通过让句子中的token和知识子图的token进行交互会产生知识噪声(KnowledgeNoise)问题,即过多考虑领域知识可能会导致语句语义出现错误。为解决这个问题,K-BERT首先将一个可见矩阵将知识三元组注入到句子中,其中只有知识实体可以访问知识三元组中的信息,而句子中的token只能在自注意力模块中看到彼此。为了进一步降低知识噪声,Colake提出了一种统一的词-知识图谱如图10所示,输入句子中的token形成了一个完整的连接的词图,此图中与知识实体对齐的token与其相邻接的实体相连。
图6:使用图结构将知识图谱中的信息注入到LLM输入中
上述方法确实可以给大模型注入大量的知识,但它们大多