机器之心发布
作者:姚汝婧、叶迎春、张吉、李书晓、吴偶
如何从学术文献中挖掘规律,甚至溯源文献的研究方法等?来自天津大学、之江实验室和中科院自动化所的研究者借鉴生化领域中分子标记示踪的思想,对文献正文中反映研究过程的信息进行示踪,挖掘出了方法的演化规律等更多有价值的信息。
将学术文献中蕴含的规律挖掘出来是非常有意义的。借鉴生化领域中分子标记示踪的思想,本文将AI文献中的方法、数据集和指标这三种同粒度的命名实体作为AI标记,对文献正文中反映研究过程的信息进行示踪,进而为文献挖掘分析开拓新视角,并挖掘更多有价值的学术信息。
首先,本文利用实体抽取模型抽取大规模AI文献中的AI标记。其次,溯源有效AI标记对应的原始文献,基于溯源结果进行统计分析和传播分析。最后,利用AI标记的共现关系实现聚类,得到方法簇和研究场景簇,并挖掘方法簇内的演化规律以及不同研究场景簇之间的影响关系。
上述基于AI标记的挖掘可以得到很多有意义的发现。例如,随着时间的发展,有效方法在不同数据集上的传播速度越来越快;中国近年来提出的有效方法对其他国家的影响力越来越大,而法国恰好相反;显著性检测这种经典计算机视觉研究场景最不容易受到其他研究场景的影响。
1介绍相关工作
对学术文献的探索能够帮助科研人员快速和准确地了解领域发展状况以及发展趋势。目前大多数的文献研究严重依赖论文的元数据,包括作者、关键词、引用等。Sahu等人通过对文献作者数量的分析来探索其对文献质量的影响[19]。Wang等人通过对引用数量的统计,发布AI领域学者高引排行榜。Yan等人使用引用数量来估计未来的文献引用[26]。Li等人使用从文献元数据衍生的知识图谱来比较嵌入空间中的实体相似性(论文、作者和期刊)[12]。Tang等人基于关键词和作者的国家研究AI领域的发展趋势[27]。此外,还有大量基于作者、关键词、引用等对文献进行分析的研究[4,13,14,20,24]。
由于元数据涉及到的语义内容有限,一些学者对文献的摘要进行分析。摘要是对文献内容的高度概括,主题模型是主要的分析工具[5,6,18,21,22,31]。Iqbal等人利用LatentDirichletAllocation(LDA)来探索COMST和TON中的重要主题[8]。Tang等人利用Author-Conference-Topic模型构建学术社交网络[23]。此外,Tang等人分析发现当前热点研究话题TOP10为NeuralNetwork、ConvolutionalNeuralNetwork、MachineLearning等。但是,基于主题模型对摘要进行主题分析存在主题粒度不一致的问题。例如Tang等人发现的当前热点研究话题top10里面,NeuralNetwork、ConvolutionalNeuralNetwork、MachineLearning三个话题的粒度完全不一致。
摘要中蕴含的主要是结论性信息,缺少反映研究过程的信息。文献正文中包含了研究的具体过程,但目前还基本未见有对文献正文的研究。其中一个主要原因是,论文正文通常包含几千个单词。在远超摘要长度的正文上,利用现有主题模型技术进行分析,可能会导致正文中与主题相关性低的非主题单词也会被作为主题单词。
我们注意到,生物领域中常用分子标记法来追踪反应过程中物质和细胞的变化,从而获取反应特征和规律[29,30]。受此启发,我们发现在文献的特征与规律挖掘中,方法、数据集、指标能够起到和分子标记物相同的作用。我们将AI文献中这三种同粒度的命名实体作为AI标记,利用AI标记来对正文中反映研究过程的信息进行示踪。图1描述了AI标记和分子标记的相似性。基于AI标记的挖掘补充了常规的基于元数据和基于摘要的挖掘。
(a)SamuelRuben和MartinKamen使用氧同位素18O分别标记H2O和CO2,跟踪光合作用中的O2的来源。
(b)当AI标记被其他文献提出或引用时,就形成了特定研究过程中的踪迹。因此,AI标记在挖掘文献的特征和规律性方面可以起到与分子标记相同的作用。
Figure1:AI标记和分子标记类比图
在我们的研究中,首先利用实体抽取模型对大规模AI文献中的AI标记进行抽取,并对有效AI标记(方法和数据集)进行统计分析。其次,我们对抽取的有效方法和数据集进行原始文献的溯源,对原始文献进行统计分析,并且研究了有效方法在数据集上和在国家之间的传播规律。最后,根据方法和研究场景共现关系来实现对方法和研究场景的聚类,得到方法簇和研究场景簇。基于方法簇及关联数据集绘制路径图,研究同类方法的演化关系,基于研究场景簇来分析方法对研究场景以及研究场景之间的影响关系。
通过基于AI标记的AI文献挖掘,我们可以得到如下主要发现与结论:
我们从有效方法和数据集的新角度,通过对AI标记进行统计分析,获得了反映AI领域年度发展情况的重要信息。例如,年无人驾驶领域的经典数据集KITTI跻身于top10数据集,说明无人驾驶是年的热门研究主题;
在对AI标记进行溯源得到的原始文献的统计分析层面,我们发现新加坡、以色列、瑞士提出的有效方法数量相对较多;从有效方法在数据集上的应用情况来看,随着时间的发展,有效方法应用在不同数据集上的速度越来越快;从有效方法在国家间的传播程度来看,中国提出的有效方法对其他国家的影响力越来越大,而法国恰好相反;
基于方法簇和数据集信息,我们构建了方法路径图,能够展示同一方法簇内各个方法的时间发展史及数据集应用情况;对于场景簇,我们发现与显著性检测相关的经典计算机视觉研究场景最不容易受到其他研究场景的影响。
2数据
在我们文献挖掘的研究过程中,需要用到大量的文献数据,因此,本节首先介绍了我们收集的文献数据。此外,在研究过程中,我们需要用到两个机器学习模型。因此,本节对这两个模型的训练数据也分别进行了介绍。
2.1收集的文献数据
我们使用中国计算机学会(CCF)等级(Tier-A、Tier-B和Tier-C)中的AI期刊和会议列表,收集了年至年出版的,篇论文。用GROBID将PDF格式的论文转换为XML格式,从XML格式论文中提取标题、国家、机构和参考文献等信息。为了便于阅读,我们将收集到的这些数据称为CCFcorpus。
2.2章节分类的训练数据
通常,一篇AI文献的正文包括引言、方法介绍、实验章节、结论四个部分。本文利用章节分类策略将AI文献的正文按上述四部分进行分类。
我们随机选取篇CCFcorpus中的文献,并招募10名AI领域研究生标注这篇论文中的个段落。我们称该数据为TCCdata。TCCdata用来构建章节分类中的BiLSTM分类器[3]。TCCdata中每类章节的数量以及每类章节包含的段落数量如表1所示。
Table1:TCCdata中章节和段落的数量
2.3AI标记抽取的训练数据
为了训练AI标记抽取模型,我们随机选取篇CCFcorpus中的文献。将文献正文中方法章节和实验章节的内容按标点符号切分成句子,并招募10名AI领域研究生对这些句子进行标注。我们采用BIO标注策略标注方法、数据集、指标这三种实体,利用机器之心编译好的方法、数据集、指标作为标注参考。最后我们得到个句子,称之为TMEdata。
在构建AI标记抽取模型时,我们将TMEdata按照7.5:1.5:1的比例划分成训练集、验证集和测试集。训练集、验证集和测试集中包含的三种AI标记的数量如表2所示。
Table2:TMEdata中AI标记的数量
3方法
本节介绍本项研究所涉及的具体方法,包括章节分类、AI标记的抽取与归一、AI标记原始文献的溯源、方法和研究场景的聚类、方法簇内路径图的生成以及研究场景簇的影响程度。
3.1章节分类
在一篇AI文献正文中,位于方法章节和实验章节的AI标记对该篇文献起着实质性作用,因此我们只对AI文献正文中方法章节和实验章节的AI标记进行抽取。但是,由于AI文献正文结构的多样性,难以用简单的规则策略对AI文献正文章节进行较为准确的分类。因此,本文提出了BiLSTM分类器和规则相融合的章节分类策略。
3.1.1提出的分类策略
章节分类的整体流程如图2所示。对于一篇AI文献的正文内容,我们首先利用规则匹配(关键词和顺序)对正文章节进行标注。对于匹配到的章节,则输出章节标签。对于未匹配到的章节,则将章节下的段落输入到基于TCCdata训练的paragraph-levelBiLSTM分类器进行预测。接下来对相同章节标题下的段落预测结果进行投票,将出现次数最多的标签作为该章节类别。最后,将基于规则匹配得到的章节标签与基于投票得到的章节标签结合,得到整个正文的章节标签。
我们采取了常规的onelayerBiLSTM架构。其中最大句子长度选取为,词向量的维度选取为,hidden维度选取为,batchsize选取为64。采用交叉熵作为损失函数,TCCdata作为训练数据。
Figure2:章节分类整体流程
3.1.2评估结果
我们将TCCdata以8:1:1的比例划分成训练集、验证集、测试集。在测试集上,我们对规则匹配、paragraph-levelBiLSTM、规则匹配与paragraph-levelBiLSTM结合这三种章节分类方式分别进行了评估。结果表明,仅利用规则匹配,准确率为0.。仅利用基于TCCdata训练的paragraph-levelBiLSTM,准确率为0.。将规则匹配与基于TCCdata训练的paragraph-levelBiLSTM结合后,准确率达到了0.。
3.2AI标记的抽取与归一
AI标记的抽取与归一具有很大的挑战。由于每年都会涌现出大量AI文献,新的AI标记数量不断增加,形式也多种多样,一些常见词可能也会被当作数据集。例如DROP在年发表的[2]中被当成数据集。AI标记的命名没有特定的规范。此外,一些AI标记存在歧义的问题。例如CNN,既可以表示CableNewsNetwork数据集,又可以表示ConvolutionalNeuralNetworks方法。比如LDA,既可以表示LatentDirichletAllocation方法,又可以表示LinearDiscriminantAnalysis方法。
3.2.1AI标记抽取模型
AI标记抽取是一个典型的命名实体识别问题。本文采用的AI标记抽取模型基于目前经典的CNN+BiLSTM+CRF框架[15],并作了小的改进,如图3所示。
Figure3:AI标记抽取模型结构
对于一个输入句子,其中w_i表示第i个单词。首先将每个单词切分成字符级,通过CNN网络获取到每个单词的character-levelembedding。然后经过Gloveembedding[17]模块获取到每个单词的word-levelembedding。将句子中每个单词的character-levelembedding与每个单词的word-levelembedding拼接,然后送入到Bi-LSTM。使用self-attention[25]计算每个单词与其他所有单词之间的关联。最后,将通过self-attention获取到的隐向量送入CRF[10],得到每个单词的标签序列y。y∈,分别对应方法、数据集、指标和其他。
3.2.2实验设置
模型参数设置如下。最大句子长度选取为,最大单词长度选取为50,batchsize选取为16。字符级CNN网络使用5个并列的3D卷积-激活-最大池化,5次卷积中每次分别用10个1*1*50,1*2*50,1*3*50,1*4*50,1*5*50的3维卷积核,激活函数均使用ReLU。最后将5次得到的结果进行拼接,得到每个单词50维字符级词向量。Bi-LSTM选用一层,hidden维度选为,self-attention的hidden维度选为。
3.2.3评估结果
利用原始样本与其对应的小写化后的样本对模型进行训练。在测试时,我们分别对测试样本(个句子)及其对应的个小写化后的样本进行测试。AI标记抽取模型的评估结果如表3所示。
Table3:AI标记抽取模型评估结果
由表3可看出,相比于传统的CNN+BiLSTM+CRF模型,我们的模型无论是对于AI标记的整体识别,还是各个AI标记的单独识别,在F1、Recall、precision三个指标上效果均有所提高。此外,结合黑白名单等规则进行优化后,我们模型的F1为0.,Recall为0.,Precision为0.。
3.2.4AI标记归一
对于一些有多种表示形式的AI标记,我们制定了一系列的规则策略进行归一化。例如,对于方法「LongShort-TermMemory」,我们将「LSTM」、「LSTM-based」、「LongShort-TermMemory」等归一化成「LSTM(LongShort-TermMemory)」。对于指标「accuracy」,我们将「meanaccuracy」、「predictiveaccuracy」等包含「accuracy」的指标都归一化成「accuracy」。详细归一化策略参见附录A。对于出现的一些一词多义的情况,考虑到很多AI标记能够根据实体类别进行区分,且同一类型的一词多义出现概率很小,我们不对这种情况专门进行处理。
3.3AI标记原始论文溯源
要想得到一个方法或数据集从提出开始逐渐被其他文献引用的研究踪迹,首先需要追溯到方法和数据集的原始文献。我们将追溯到的方法和数据集原始文献称为「原始论文」。我们只对明确出现在后续文献的方法或者实验章节的方法或数据集进行追溯。
3.3.1溯源方法
考虑到在一篇文献中,方法或数据集在被引用时,后面经常会附有其对应的原始论文。因此,在我们提出的溯源方法中,对于每个AI标记,我们首先找出引用该AI标记的文献集合。对于文献集合中的每篇文献,查找该AI标记出现的句子集合。对于每个句子,查看该AI标记后面的一个位置或者两个位置是否有参考文献,将有参考文献的信息记录下来。最后,将每个AI标记对应的引用数量最多的文献作为其原始文献。
3.3.2评估结果
利用本文的溯源方法,我们追溯到了CCFcorpus中提出的被明确引用次数大于1的方法的原始文献篇,方法个。追溯到CCFcorpus中提出的被明确引用次数大于1的数据集的原始文献篇,数据集个。
我们随机抽取得到的结果中被明确引用次数为5、4、3、2的方法各个,被明确引用次数为5、4、3、2的数据集各个。对这个方法和个数据集对应的原始文献结果进行人工评估,评估结果见表4。结果准确率都超过了90%。
Table4:溯源方法的评估结果
3.4方法和研究场景的聚类
单独的数据集或者单独的指标可能会对应多个不同研究场景。例如CMUPIE数据集与accuracy指标的组合表示为人脸识别研究场景,IMDB数据集与accuracy指标的组合表示为影评情感分类研究场景。因此,我们将一篇文献中的数据集和指标进行组合来代表研究场景,进而得到大量冗余的研究场景。
很多指标是同时应用的,比如precision、recall等,因此,首先需要将指标进行合并,以减少研究场景的冗余。
我们根据方法与研究场景在文献中的共现次数构建了方法-研究场景矩阵。由于数据集和指标的组合较多,使得研究场景的数量非常大,造成了方法-场景矩阵的高维稀疏。为解决该问题,我们借鉴NonnegativeMatrixFactorization(NMF)[1,11]和谱聚类[16],构建了降维及聚类算法。
首先,我们将数据集和指标组合成研究场景,根据方法和研究场景共现关系,得到方法-研究场景共现矩阵。其次,基于NMF和谱聚类对方法进行聚类,得到类方法簇。然后,根据指标-方法簇共现矩阵对指标进行谱聚类,得到50类指标簇。将指标簇与数据集组合成研究场景,根据方法-研究场景共现矩阵对研究场景进行谱聚类,得到类研究场景簇。我们期望每个簇中的研究场景数量大体比较均衡,因此将包含研究场景数量以上的簇再次根据方法-研究场景共现矩阵进行谱聚类。一共有2个簇中包含的研究场景数量在以上,通过再次聚类后得到类研究场景簇。将这类研究场景簇与其余类研究场景簇合并后得到类研究场景簇。
3.5方法簇内路径图的生成
方法路径图描述了不同但高度相关的方法的演变[28]。在通过上述聚类算法得到的方法簇中,每一类方法簇都是由相同类型方法组成的。在这个簇里面,如果能够构建一个按照时间的方法演化图,并且加入数据集信息,将会为相关的研究提供非常有启发的信息。
本文提出的方法簇内路径图的生成过程如下所示:
对于一个方法簇,获取其包含的所有方法的原始文献信息:提出时间、方法在提出该方法的论文中所在的章节、该方法对应原始论文使用的数据集;
对于该方法簇中的每种方法M_i,找出该方法原始论文的实验章节所提到的其它方法。构建M_i到每个方法的路径M_i→M_j,M_j,∈。M_i与M_j之间的边为M_i和M_j进行对比时使用的数据集;
合并连续路径,得到同类方法下方法的路径图。(例如,如果有(M_1→M_2),(M_2→M_3),(M_1→M_3),只保留(M_1→M_2),(M_2→M_3))。
我们的路径图构建同[28]中的方法存在两点区别:1)我们增加了数据集的关系,方法和方法之间通过数据集建立联系,从而提供了额外的信息;2)我们通过大规模文献来获取方法,可以同时得到大量的路径图。
3.6研究场景簇的影响程度
本文分析了研究场景簇之间的影响程度,以及追溯到的有效方法对其他研究场景簇的影响程度。
根据研究场景与研究场景簇的对应关系,我们找出每篇文献涉及的研究场景所对应的研究场景簇。考虑到一篇论文中一般只涉及1类主要的研究场景,因此,我们取每篇文献出现次数最多的研究场景簇作为该文献对应的研究场景簇。最终我们得到了CCFcorpus中45,篇文献对应的研究场景簇。结合这45,篇文献及其提出的有效方法,我们分析了这45,篇文献中研究场景簇之间的相互影响关系,以及这些文献提出的有效方法对其他研究场景簇的影响。
我们将研究场景簇为s的文献集合定义为Ls,。文献提出的有效方法三年内被引用,场景簇非s的文献集合为。研究场景簇s对其他研究场景簇\s的影响程度比率计算如公式1所示:
其中,为文献对应的研究场景簇在45,篇论文中的分布,表示文献对应的研究场景簇在45,篇论文中的分布。为计算与的JS散度。
此外,本文分析了这45,篇文献提出的有效方法对其他研究场景簇的影响。
我们将有效方法m对应的原始文献表示为l_m,文献l_m对应的研究场景簇为s,三年内引用了有效方法m且场景簇非s的文献集合为。有效方法m对研究场景簇的影响程度ID_m和影响程度比率IDR_m计算公式如下:
其中,为l_m文献对应的研究场景簇在45,篇论文中的分布,表示为文献对应的研究场景簇在45,篇论文中的分布。为计算与的JS散度。
4结果
本节基于前述的方法,包括章节分类、AI标记的抽取与归一、AI标记原始文献的溯源、方法和研究场景的聚类、方法簇内路径图的生成以及研究场景簇的影响程度,对所收集的CCFcorpus(-年的AI论文)进行基于AI标记的统计分析、传播分析与挖掘,并对结果进行展示。
4.1有效AI标记的统计
我们通过提取CCFcorpus中的AI标记,得到,个机器学习方法实体、16,个数据集实体、个指标实体。考虑到很多只出现一次的AI标记基本上没有丰富的信息,我们只对出现1次以上的AI标记进行分析。我们将出现次数大于1的AI标记称为有效AI标记。
本节介绍了有效AI标记关于国家和出版地点的分析,以及对每年使用数量排名前十的有效AI标记的分析。
4.1.1有效AI标记关于国家的分析
一个国家提出有效AI标记的数量能够体现出该国的AI研究实力。因此,我们首先对CCFcorpus中各个国家在-年提出的有效方法和数据集的数量分别进行了统计,如图4和图5所示。
Figure4:追溯到的由CCFcorpus提出的有效方法在不同国家中的数量分布
Figure5:追溯到的由CCFcorpus提出的有效数据集在不同国家中的数量分布
由图4我们可以看出,提出有效方法的数量排名前三的是美国、中国、英国。德国、法国、加拿大、新加坡、澳大利亚等国家提出的有效方法数量次之。由图5我们可以看出,提出有效数据集的数量排名前三的也是美国、中国、英国。德国、瑞士、加拿大、法国、新加坡、以色列等国家提出的有效数据集的数量次之。由此可以看出,美国、中国、英国是机器学习领域中相对更为活跃的国家。德国、法国、加拿大、新加坡等国家虽与美国、中国、英国有一定差距,但是相对而言也比较活跃。
为了降低各个国家论文发表数量对分析结果产生的影响,我们对CCFcorpus中提出有效方法数量排名前十的国家的有效方法提出率和CCFcorpus中提出有效数据集数量排名前十的国家的有效数据集提出率进行了分析。
国家c有效方法的提出率MRc、有效数据集的提出率DRc计算如公式4和5所示。
其中,表示CCFcorpus中国家c提出的所有有效方法的集合,表示CCFcorpus中国家c提出的所有有效数据集的集合,表示在CCFcorpus中国家c的所有文献的集合。
(a)图4中排名前10国家的有效方法提出率。
(b)图5中排名前10国家的有效数据集提出率。
Figure6:图4和图5中排名前10国家中有效AI标记的提出率。国家提出的AI标记的数量从上到下递减。
基于公式(4)和(5),我们计算了提出有效方法数量排名前10的国家中有效方法的提出率和提出有效数据集数量排名前10的国家中有效数据集的提出率,结果如图6所示。
由图6a我们可以看出,美国提出有效方法的数量和比例都稳居第一位。中国和英国虽然提出有效方法的数量比较高,但是提出有效方法率要低于新加坡、以色列、瑞士。由图6b可知,瑞士虽然提出有效数据集的数量要低于美国、中国、英国、德国,但是在数据集的提出率上是最高的,反映出瑞士特别重视AI数据集。
4.1.2有效AI标记关于出版地点的分析
一个出版地点提出有效AI标记的数量能够体现出该出版地点的质量。出版地点v有效方法的提出率MRv、有效数据集的提出率DRv计算如公式6和7所示。
其中,M_v表示CCFcorpus中出版地点v提出的所有有效方法的集合,D_v表示CCFcorpus中出版地点提出的所有有效数据集的集合,L_v表示在CCFcorpus中发表在出版地点v的所有文献的集合。
利用公式6和7,我们计算了提出有效方法数量排名前10的出版地点中有效方法的提出率和提出有效数据集数量排名前10的出版地点中有效数据集的提出率,结果如图7所示。
(a)提出有效方法排名前10的出版地点的有效方法提出率。
(b)提出有效数据集排名前10的出版地点的有效数据集提出率。
Figure7:提出有效AI标记排名前10的出版地点的有效AI标记提出率。出版地点提出的AI标记的数量从上到下递减。
由图7a我们可以看出,ECCV虽然是CCF的B类会议,但是其有效方法提出率要高于CVPR。在提出有效方法的数量排名前十的出版地点中,有7个都是A类的出版地点,这说明A类出版地点中的论文质量确实要比B和C类的高。
图7b展示了有效数据集的分布情况。我们可以看出,CVPR提出更有效数据集的数量和提出率都排名第一。ECCV虽然是B类会议,但是提出有效数据集的数量和提出率仅次于CVPR。在提出有效数据集的数量排名前十的出版地点中,有6个是A类的出版地点,也反映出A类出版地点确实更