南京理工大学陈果主持完成的全国科技名词委科研项目“基于领域实体计量的学科热点及其发展态势研究”(项目批准号为:YB2021019),最终成果为系列论文《基于“问题—方法”知识抽取的科研领域知识演化研究:以人工智能为例》等。课题组成员有:肖璐、彭家彬、陈晶、王凯月、陈智力、陈霜澜、姚游倩、叶潮、王立航、杨一凡。
一 研究的目的及意义
当前,科学技术的发展与变革正深刻影响着全球经济环境和社会形态。科技领域研究热点的识别和发展态势分析是把握科技创新发展方向的前提,可以支撑国家科技战略规划,有助于国家在重点科技领域摆脱技术依赖、尽早抢占新科技变革的战略主导权。然而当前学科热点识别和发展态势分析的研究和实践受制于分析对象的不足,因此本项目旨在通过特定学科领域的实体计量方法,实现对科技文献中学科研究热点的识别及其发展态势的深入分析。具体研究目的包括:
(1)探索科技文献领域实体识别方案。通过构建低人工标注语料依赖的领域实体识别方法,实现多种科技文本中实体消歧和映射,开展领域实体过滤,确保进入学科热点分析的实体具备合适性。
(2)建立基于实体计量的科技领域研究热点识别模型。基于领域实体关联构建主题类簇,通过多粒度的知识聚合和领域实体评价指标,建立科技领域研究热点识别模型,提高识别模型的准确性和可解释性。
(3)更深入地分析学科热点的发展态势。利用领域实体的多粒度、多维度语义信息,深入分析学科热点的发展态势,拓宽和深化相应方法体系,并以特定科技领域为例,在实践案例中验证项目方案的有效性。
科技领域研究热点识别及其发展态势分析问题源于国家发展重大需求,具有明确且重要的理论和实践意义。
理论意义:有助于推动学科热点分析研究范式从“关键词计量”向“实体计量”转型。以往研究偏向于直接使用关键词作为研究对象,虽方便快捷,但关键词缺乏语义信息和领域表征度,所得结果往往宽泛而不易解读。本课题使用更细粒度的领域实体作为研究对象,相较于关键词而言,其含义精确并且能够准确表征领域知识,从更本质的层面提升了研究的准确性和科学性。
实践意义:可以切实有力地支撑国家各层级科技规划制定与实施。学科热点识别与发展态势分析这一命题直接来源于国家科技战略发展的现实需求。本课题的开展有助于支撑十四五规划中“瞄准前沿领域,实施一批具有前瞻性、战略性的国家重大科技项目”的实施。课题技术攻关成果可作为通用关键性技术,广泛应用于各层级各行业科技发展态势监测和预测中,直接支撑关键科技领域规划制定与实施。
二 成果的主要内容
本项目主要开展了“数据资源准备研究对象识别研究热点识别发展态势预测与评估”四个方面研究。
(1)理论调研及数据资源准备
项目初期,我们致力于科技文献的深度理论调研,聚焦于实体及其关系的抽取、领域知识演化分析等相关研究。目前科技文献上的实体关系抽取工作有两个特点,一是大多是在较小规模的人工标注语料上开展有监督学习;二是受此影响,结果指标远不及开放域上的实体关系抽取。研究表明,数据规模对科技文献实体关系识别影响很大,并且扩充语料难度也极大。因此,使用半监督技术以解脱对语料依赖显得尤为重要。在领域知识演化分析方面,实体关系的应用方兴未艾。在后续的研究中,一方面,知识分析单元应该细粒度化,以有效表征领域创新知识点;另一方面,更多的领域背景知识应融入具体的知识演化分析中,将离散的知识单元语义化,使结果的解读更加细致、客观。与此同时,我们在梳理不同词汇对象定义及其转化关系的基础上,从其所蕴含的语义差异出发,基于领域分析视角,以“词汇语义状态提升”为主线,开展理论探索,构建了包含“词语→术语→实体→概念”4 个语义层次的词汇语义链理论框架。
在数据资源准备方面,本课题以“WC=computer science and WC=artificial intelligence”在WOS核心合集中检索文献,获取了AI领域文献的题录数据共927675条,时间段为1996-2020年。
(2)研究对象识别
在确定使用半监督方案技术实现领域实体识别之后,本课题以摘要作为实验语料,随机抽取3000条句子进行标注,其中2500条作为训练集,500条作为测试集。利用BiLSTM、CRF、CNN、BERT等模型结合词嵌入向量、词性、单词首字母大小写特征进行训练和测试。结果表明,BERT_BiLSTM_CRF模型在细分领域上识别效果最佳,P、R和F1值分别为0.756、0.789、0.772。而后我们将训练好的模型应用于全量摘要抽取“问题”、“方法”两种实体备用。
(3)研究热点识别
在实现领域实体计量技术方案的过程中,我们首先构建关系约束规则:涵盖了由<问题,方案>组成的解决关系,由<问题,问题>或<方法,方法>组成的层级关系,以及不限定实体类型的相关关系。而后由word2vec的Skip-gram算法训练实体嵌入式向量。构造3个独立的分类器构建关系识别二分类模型,从数据集中随机抽取正例和负例构造实验数据,分别使用随机森林(RF)、K近邻(KNN)、支持向量机(SVM)和多层感知机(MLP)模型,实现实体层级关系和解决关系的分类。实验结果显示MLP在问题—问题层级和问题—方法解决关系的发现中占优,SVM尽管整体不如MLP表现良好,但在方法—方法层级关系识别上取得了最高的召回结果。测试中还对各模型进行软投票集成,结果在3种关系的识别任务上均得到最佳F1值(80%左右)。实体相关关系则基于余弦距离的相似度采用相似度TopN的方法进行判定。
(4)发展态势预测与评估
项目后期,我们基于实体演化测度从宏观中观微观三个层面全面分析了学科热点发展态势。在宏观角度首先构建由问题实体、方法实体两种节点类型及相应层级关系、解决关系、相关关系3种边类型的AI领域实体关系网络。其次引入时序,对知识网络进行切片,得到不同时期的知识网络,对比分析整体领域知识演化情况。结果显示近20年来AI领域的研究主要以方法为驱动来解决相关问题。1996-2002年,AI领域研究呈现出方法主导的特点。2003-2008年,AI研究发展稳定,但明显缺乏技术方法和问题领域革新。2009-2014年, AI领域重心偏向于问题应用导向,一些传统方法在特定问题上的应用进一步凸显。2015-2020年是围绕深度学习的新技术涌现时期,同时一些已有方法也得以改进并被广泛应用。
在中观层面利用高频问题和方法实体的时间演化热力图,揭示两种知识实体的演化趋势。根据不同问题实体和方法实体的数量随时间的变化,可将两种实体的具体演化分为“持续关注型”研究问题、方法,“稳步增加型”研究问题、方法,“先增加后衰退型”研究问题、方法,“增型”研究问题、方法。
在微观层面以“计算机视觉”为例,展示了个体知识解决方法的演化热力图及其几种典型的演化趋势。Computer Vision高频解决方法的演化情况可分为3类: 被持续稳定使用的方法,增长型方法和先增后减的衰退型方法。整体上来看,随着时间的推移,计算机视觉任务的高频解决方法多与神经网络模型相关,并且分布也更加集中。计算机视觉有效地促进了图像相关的深度神经网络模型的发展,而这些模型又极大地提升了计算机视觉自身相关任务的性能。正是在这种反馈调节中,计算机视觉许多相关问题和方法在不断地被优化,得以发展。
三 成果的主要价值
本课题研究成果对于学界深化科技分析理论方法体系、业界优化科技监测实践方案具有重要的理论与应用价值,研究成果社会效益明确。
学术价值:有助于推动学科热点分析研究范式从“关键词计量”向“实体计量”转型。领域实体是最细粒度的知识单元,其领域表征度、语义稳定性和演化可预测性均优于关键词。在确立以领域实体为基本分析对象的前提下,可建立更细粒度、更直观的学科研究热点发展态势分析体系,有效克服以往研究中语义深入度不够的问题,深化科技分析理论方法体系。
应用价值:①可以服务于国家科技战略发展的现实需求,为国家各层级科技规划制定与实施提供切实有力的支持。②课题技术攻关成果可作为通用关键性技术,广泛应用于各层级各行业科技发展态势监测和预测中,直接支撑关键科技领域规划制定与实施。
社会影响和效益:
(1)科研效益:通过会议交流、论文发表、非正式交流、资源与技术开源等方式,将本课题研究成果向相关科研人员分享,有助于引导学界围绕“领域实体”粒度的学科知识分析方法体系开展更为深入、持续的研究。
(2)政府与科研管理机构、科技情报机构效益:通过提交咨询报告、开展围绕特定需求的应用合作等方式,将本课题研究成果应用于政府、科研管理机构、科技情报机构,特别是各层级、各行业情报研究所,为相关各级各行业部门监测科技发展态势、制定科技规划提供支撑。