学术科研
科研成果

基于“静态-动态”融合特征的语言学术语知识图谱

发布时间:2025-02-27 来源:
  鲁东大学王兴隆主持完成的全国科技名词委科研项目“基于‘静态-动态’融合特征的汉语语言学术语知识图谱构建研究”(项目批准号为:YB2021026),最终成果为基于“静态-动态”融合特征的汉语语言学术语知识图谱数据库和论文《基于Neo4j的语言学术语知识图谱构建研究》。课题组成员有:亢世勇、王浩学、冯海霞、王东海、孙道功、李连伟、张志旺、程勇、国海涛。
一 研究的目的与意义
  本研究在系统梳理、分析语言学术语发展脉络与发展特征的基础上,采用领域知识图谱常用的自顶向下构建模式,以《语言学名词》及相关期刊数据作为结构化数据源,将传统知识图谱的节点和边的关系进行重构和梳理,构建出基于“静态-动态”融合特征的汉语语言学术语知识图谱。本文的语言学术语知识图谱是以“术语事件”为核心节点和动力枢纽,以“术语事件属性值”为次核心节点和关联单元,以“术语事件关系”为演化框架和延伸路线,以“术语事件属性值关系(属性)”为结构内容和分布网络的新形态知识图谱。由此构筑语言学术语空间的演化逻辑链条、搭建术语知识的内容分布模型。基于Neo4j图数据库构建语言学术语知识图谱,较为深入地探究了语言学术语知识图谱构建模式及方法,以期进一步推动语言学术语知识图谱的应用发展,并尝试为学科术语知识图谱提供一种框架参考及构建范式。
二 成果的主要内容
  (1)构建思路。语言学术语多是名词性质的,但是其中隐藏的事件名词多具有动力性质,它们是推动术语之间关系动态化、术语图式化的核心驱动。首先,以语言学学科的[理论/学说/方法]为核心节点和动力枢纽,架构起术语知识图谱的网络框架和演化模型。这样更符合对于语言学术语的思维习惯和认知规律。其次,以[理论/学说/方法]的存续时间、存续地域、代表人物、关键词(高频/基础/核心术语)、观点为其逻辑主体和主要内容,编制成术语知识图谱的关联网络和关联节点。最后,以[理论/学说/方法]的关键词及它们之间的关系所构成的观点(三元组:关键词术语-关系-关键词术语)为逻辑单元和关键信息,实现为术语知识图谱的内容实体和知识链条。上述三点,和事件理论的“事件”“事件关系”“事件和事件元素关系”“事件元素”“事件元素关系”存在逻辑对应。
  基于上述思路,语言学术语知识图谱中的三元组主要包含以下三个要素:①术语事件:本研究特指语言学术语中蕴含的理论/学说/方法。它们的产生和存续行为及核心凝聚力和“事件”近似,因此称之为“(语言学)术语事件”。在知识图谱中体现为众多节点。②术语事件关系:各个理论/学说/方法之间的演化模式和事件链条。在知识图谱总体现为连接节点的边。③术语事件属性值:各个理论/学说/方法的存续时间、存续地域、代表人物、关键词、观点等的具体取值。
  (2)知识来源。本研究中知识图谱的结构化数据主要来源于《语言学名词》,辅以期刊文章的相关术语数据。《语言学名词》的内容是由全国科学技术名词审定委员会审定公布的语言学名词,包括理论语言学,文字学、语音学、语法学、语义词汇学,辞书学、方言学、修辞学、音韵学、训诂学、计算语言学、社会语言学、民族语言学共13个部分,共收词2939条。本次研究将其中的术语条目作为主要实体,并从术语条目的解释内容中提取出术语关系及属性值关系。
  (3)实体抽取与对齐。本研究基于《语言学名词》与期刊论文中的相关术语条目,去除非典型的部分术语条目,如“匹配”等,以术语条目作为知识图谱主节点,以术语事件为中心构建语言学术语知识体系。在得到节点之后,需要进行实体对齐,即解决“名异实同”问题,检查知识图谱中的节点是否采用不同词汇指称同一概念,解决图谱数据中的实体混淆、实体歧义等问题。因《语言学名词》本身是一部术语词典,词典性质本身已基本避免术语重复的情况,数据冗余量小,对于存在的少量“名异实同”的术语及阐释,本研究利用人工校对的方式将近似表达统一为相同实体。
  (4)关系及属性值抽取与对齐。知识图谱的本质是语义网络,节点与节点之间需要用“关系”来连接。关系是使知识图谱形成网络的关键所在,本研究在语言学术语知识图谱的构建过程中,采用了事理逻辑类型来定义节点关系。事理图谱是一个描述事件之间演化规律和模式的事理逻辑知识库。在层次结构上,事理知识图谱是一个有向图,其中节点代表事件,有向边代表事件之间的逻辑关系。语言学术语是具备清晰的发展逻辑的,适合于事理图谱的构建,并可以展示语言学术语的发展变化。本研究归纳了语言学术语之间的九类实体关系:因果,条件,种属,构成,继承,并发,对立,类似,互补,能够有效揭示语言学术语的演化规律与逻辑。九大关系是从术语外部出发的关系。从术语内部来看,它们由众多属性构成,属性是术语内部的构成要素,语言学术语发生于一定的时空范围内,对于某一个术语事件,其实体本身大多数具备时间、地域、代表人物、关键词、观点等属性值,本研究根据语言学术语的所包含的重要知识特征,定义了五个属性值,用以从术语事件内部发掘术语内在特征之间的规律。
  属性值对齐是指,针对同一属性的属性值存在多种表达形式的问题,需要设置统一的标注规则,减少数据冗余,提高知识表达能力表达。就本次研究而言,属性值冗余问题主要存在于时间和人物属性,采取统一的格式规则对该两种属性进行对齐。
  (5)知识存储及可视化实现
  本研究采用自顶向下的构建模式,对节点、属性、关系的相关类别进行顶层设计和格式规范后,进行术语收集和三元组构建工作。最终汇总得到两万多条三元组,两端的实体(属性)由中间的关系连接。
三 成果的主要价值
  语言学术语图谱构建工作对于语言学理论与应用发展具备较大意义。
  (1)本研究构建出了较为完备的语言学术语知识图谱,有力推动了对语言学知识图谱的研究进度。可使用此图谱查询数据发现语言学术语的演变规律,为语言学术语的研究提供新的数据平台和观察视角,还有助于归纳当前的汉语语言学术语系统化现状,预测术语理论发展和术语演化动态。
  (2)本研究提供了一种“动态-静态”的术语图谱构建模式,该构建模式具备一定的可迁移性,有可能适用于大多数学科术语图谱的构建框架,为各类知识图谱的构建提供了基于“静态-动态”特征融合的模式、框架参考。动态特征拉动静态特征,静态特征充实动态特征,构筑显性术语网络,挖掘隐性术语网络,提供基于“静态-动态”融合特征的汉语语言学术语知识图谱,可为知识图谱和事理图谱的接口研究提供理论思路和实践范式。
  (3)基于Neo4j的功能,该图谱可以外接至网站接口,实现面向用户的前端图谱网页,有助于语言学领域的术语治理、术语预测和术语审订,有助于语言学术语知识的共享传播和智慧学习。 

附件下载: