学术科研
科研成果

基于深度学习的科技术语提取技术研究

发布时间:2025-02-27 来源:
  北京大学常宝宝主持完成的全国科技名词委科研项目“基于深度学习的科技术语提取技术研究”(项目批准号为:2017001),最终成果为远程指导术语标注语料库和计算机软件《基于深度学习的术语自动提取原型系统》。课题组成员有:赵颂歌、张浩、崔巍、王文辉。
一 研究的目的和意义
  术语自动提取主要研究通过计算机自动发现、识别科技文本中名词术语的技术与方法。术语富含特定领域的专业知识,是领域知识构建的重要组成部分,术语自动提取技术是领域知识构建的关键技术,也在诸如信息抽取、信息检索、自动摘要、机器翻译等自然语言处理应用系统开发中有着重要作用。同时,术语自动提取技术的推进和研究也有助于实现我国名词术语审定工作的自动化,因而也是名词审定工作手段现代化的关键技术。
  作为一种面向领域文本的自然语言处理技术,术语自动提取也是一项极具挑战性的研究任务,长期以来,一直是国际国内学者关注的研究话题。综合看来,目前主流术语提取技术可分为三类:(1) 基于词汇-句法模式的规则方法;(2)基于统计量的统计方法;(3) 基于机器学习的方法。基于词汇-句法模式的规则方法需要通过人工总结术语的组成模式,并以规则的形式加以描述,术语提取软件然后通过应用规则来识别满足模式要求的术语。例如,多词术语通常为名词-名词组合,术语软件即可通过在科技文献中搜索名词-名词组合的方式确定可能的术语位置。基于统计量的方法主要依据是术语通常出现频度较高、术语部件之间结合紧密,可以通过统计量指标加以度量,常用的统计量包括互信息、t值、对数似然比、C-value以及NC-Value等。机器学习方法主要是通过机器学习技术从术语标注语料中自动学习术语的构成特点和语境规律,然后基于学到的规律去识别科技文献中的名词术语。这三类方法各有优劣之处,基于句法模式的方法流行于术语提取研究的早期,特点是有较好的识别准确率,但召回率不能保证。而基于统计量的方法则通常拥有高的召回率,但提取结果中常常伴有大量垃圾信息,准确率难以保证。这两类方法的统一优势在于不需要人工标注的语料库。机器学习技术近年来也被逐渐引入术语提取研究,在有充足标注语料库的前提下,其提取性能颇有希望。但术语标注语料库建设耗时费力,成为妨碍此类方法突破的瓶颈问题之一。
  “基于深度学习的科技术语提取技术研究”项目主要有如下两个研究动机:(1) 如何解决术语标注语料库缺乏的问题,只有基于充足的标注语料,基于有指导机器学习技术的术语提取技术才能发挥效力;(2) 近年来深度学习方法在图像、语音处理等领域取得突破性进展,在自然语言处理领域取得良好的效果。作为一种机器学习技术,与条件随机场、支持向量机等模型不同,深度学习模型非线性的模型容量、特征自我学习能力。循环神经网络、卷积神经网络等众多网络模型,尤其是循环神经网络模型及其变体,在许多任务中都展现出良好的处理效果,深度模型在术语提取任务上的表现值得系统研究。 
二 成果的主要内容
  “基于深度学习的科技术语提取技术研究”项目基于上述研究动机,经过系统考察和研究,主要取得如下研究成果和研究结论:
  (1) 针对人工标注数据代价昂贵这一问题,项目采取了远程监督的训练方法。具体而言,项目组首先选定计算科学作为术语提取的目标领域,收集了国内主要计算机期刊的论文摘要电子版并进行了清洗和整理,同时也收集并整理得到一部含有70669个术语的术语词典。基于该术语词典,通过远程监督的方式对摘要文本进行远程标注,得到了64000多个远程标注摘要,为后续模型和方法研究建立了数据基础,解决了研究中的标注语料缺乏问题。项目组在研究中也发现,与关系提取研究不同,鉴于术语提取任务本身的特点,基于远程监督策略生成的术语标准语料虽然有召回不足的问题,但整体准确率较高。在无法通过人工标注构建大规模语料的情况下,基于远程监督技术自动构建大规模术语标注语料库速度快,是可行的方法。
  (2) 深度学习模型可以大幅简化特征工程,可通过较小的参数规模达到或超过传统机器学习技术的提取效果。在本项目中,项目组基本采取了端到端的神经网络模型架构,寄望于模型自身的特征学习能力,基本取消了人工特征设计和特征模板,但名词术语提取与分词等典型自然语言处理任务不同,涉及局部语境特征,同时也涉及全局语篇特征,也就是说,某个语言表达是否是名词术语不能仅由其前后局部的语境决定,其全局频率及跨文档分布规律也是关键因素。为此,项目组仍然在模型中引入了项频率(tf)和逆向文档频率(idf)特征,同时新增加了逆向开始标签频率(ibf)和逆向接续标签频率(iif)两个新型特征,以增加对术语标签全局特性的考虑。基于端对端的架构设计极大简化了特征工程工作,同时也在模型参数方面实现了数量级式的缩减,从条件随机场(CRF)模型约900M的参数规模缩减为端对端深度模型的41M的参数规模,但获得了更好的术语识别效果。
  (3) 深度学习模型所拥有的高容量特性能够更好地建模术语提取任务,并取得更好的术语识别效果。条件随机场、支持向量机等传统的机器学习技术均为线性或对数线性模型,存在表达能力或容量不足的问题。项目先后以递进的方式提出了多个深度术语提取模型,先后对比了单层BiLSTM模型、多层BiLSTM模型以及基于自注意力机制的深度学习模型。为了加快多层BiLSTM模型的训练速度,项目采用了层次多损失(Multi-Loss)的训练策略,并采用了逐层轮转训练(in-turn)和顶层优先训练(decrease)两种具体的训练实现方式。实验证实,由于深度学习在表达能力方面的优势,所有深度学习模型都取得了优于条件随机场(CRF)模型的术语提取效果,术语提取的Fterm值指标绝对提升达12%。对实验结果的分析也发现,相比于传统的条件随机场模型,深度学习模型有着更为出色的新词发现能力,从而也更具应用价值。
三 成果的主要价值
  术语是科学知识的结晶,是领域本体的构成单元,研究术语提取技术有助于推动领域本体知识构建的自动化,具有显著的学术意义。同时,术语自动提取又是一个困难的研究课题。就提取效果而言,现有研究都还远远不够完美,但一直在取得进展。本项目提出通过远程监督策略自动构建大规模术语标注语料,在此基础上将深度学习技术应用于术语提取任务,重点考察了循环神经网络模型和自注意力模型,具体提出了几个逐层递进的基于深度学习的术语自动提取模型,实现了特征工程的简化,也显著提升了术语自动提取的效果,丰富了术语自动提取方法研究,具有显著的学术价值。同时,对于语言信息处理系统而言,术语是重要的未登录词(OOV)类型,在面向科技领域的自然语言处理任务中大量出现,本项目在术语自动识别技术方面的研究,有助于提高未登录词的识别准确率,从而推动机器翻译、信息提取等应用系统的效果,具有重要的应用价值。此外,本项目研究结果,也有助于促进科技术语审定工作的自动化,对提升术语审定手段现代化具有重要借鉴意义。
  本项目将远程监督和深度学习技术引入术语自动识别研究。与现有方法相比,提取效果和新术语发现能力都取得了进步,但从应用的角度看,术语提取技术有待继续深入研究。就本项目而言,首先远程监督技术虽然可以快速生成术语标注语料,但这种标注语料存在“漏标”等噪声问题,如何在语料构建过程以及提取模型设计方面降低噪声影响仍是有待深入研究的问题。深度学习模型近年来是机器学习领域的研究热点,其在架构设计方面的灵活性催生成诸如Transformer等多种模型架构,算力提升和对大数据的利用也催生出诸如Bert、GPT等多种预训练模型,探索预训练模型和新型网络架构在术语自动提取方法的价值是值得进一步研究和关注的问题。

附件下载: