中南民族大学向音主持完成的全国科技名词委科研项目“基于语料库的军事术语自动抽取与分析”(项目批准号为:YB2020002),最终成果为同名研究报告和系列论文《深化国防和军队改革背景下的新军语定名特征》等。课题组成员有:李苏鸣、曾奥涵、李峰、何干俊、罗星。
一 研究的目的和意义
自2022年11月OpenAI发布的ChatGPT3.5模型以来,大规模预训练语言模型引起各界高度关注,同时也加快了自然语言处理系统研究创新的步伐。本课题以军事术语为研究对象,结合大规模的无标注军事语料,使用近年来在自然语言处理中取得突破性进展的预训练语言模型实现军事术语的自动抽取。主要目的是如何优化模型,以较少的标注语料达到较好的术语抽取效果,降低人工标注语料的成本,提高军事术语抽取的准确率与召回率。
本课题利用预训练语言模型实现军事术语的高效、准确抽取将推动信息检索和抽取、数据挖掘等自然语言处理研究,尤其是对军事术语词典编纂、军事信息检索、军事情报分析以及军事指挥效能的提升有着重要意义,有助于推动自然语言处理和术语学的重点难点问题研究、有助于推动自然语言处理技术的发展,具有一定的理论意义和实践意义。
二 成果的主要内容
本课题以军事术语为研究对象,结合大规模的无标注军事语料,使用近年来在自然语言处理中取得突破性进展的预训练语言模型实现军事术语的自动抽取。研究基础工作包括大型军事语料库的构建与抽取模型的设计。在语料库的构建上,以军内报纸、大型军事网站、各类军用文书等作为军事语料来源构建语料库。在模型的实现上,选取中文能力较强的ChatGLM3模型作为基础模型,在其基础之上进行二次军事语料的继续预训练。研究主体是通过“预训练”“微调”两个阶段实现军事术语抽取,预训练阶段是模型在大规模无标注的军事语料进行预训练,获取语料中的军语语义信息,微调阶段是对预训练好的语言模型在有标注的术语抽取语料上进行微调,使模型掌握军事术语抽取能力,最后对不同模型的抽取效果进行比较分析。研究报告分为绪论和五个章节,具体内容如下:
绪论部分概述了国内外研究动态,从有助于推动自然语言处理和术语学的重点难点问题研究、有助于推动自然语言处理技术的发展、有助于提升军事术语抽取的深度应用效果三个方面阐述了本研究的理论意义和实践意义,介绍了本研究的总体思路以及所采取的主要研究方法。
第一章分别从术语学角度、词汇学角度、自然语言处理角度探讨了军事术语的特征,并进一步界定新军事术语,分析了新军事术语的特点,最后分析了军事术语抽取的常见方法。
第二章介绍了大型军事语料库、军事术语资源库的建立。本部分以《解放军报》等军内报纸、大型军事网站、各类军用文书等作为军事语料来源构建语料库。《解放军报》含1956年今的所有语料,实现资源动态更新。在语料处理阶段,移除无关内容和格式错误,确保语料质量,并使用了Sentence Piece分词器对文本进行分词处理。大型军事语料库包含《解放军报》1956年今的所有语料,也包含军事网站、军用文书等方面的语料,实现资源动态更新。
军事资源库主要以军事术语词典为主,主要有综合类、专业类,多语种类军用词典以及国家军用标准,目前收录军语11万条。资源库主要实现两大功能:一是检索功能。检索功能分为基本检索功能和高级检索功能。二是统计功能。可按照全库、分类汇编和单本汇编对词目、字长、异形词目、同音、同形军语、字母词、缩略语等进行统计。本章根据现有的军事术语词典设计了文本使用军语情况分析系统,一次可以支持多个文件进行分析,用户可以看到较为详细的“词目统计”“字数统计”“次数统计”信息,能够较好实现军事术语词典中已有军事术语的抽取。
第三章介绍了预训练模型的架构设计以及预训练模型的方法。在架构设计上计划以《解放军报》等军内报纸、大型军事网站《中国军网》、各类军用文书等作为军事语料来源构建语料库。为实现新军事术语的抽取,主要采用中文能力较强的预训练模型ChatGLM模型,GLM是一个基于自回归填空的通用预训练框架。通过在一个统一的框架中同时学习双向和单向的注意力机制,模型在预训练阶段同时学习到了上下文表示和自回归生成。在针对下游任务的微调阶段,通过完形填空的形式统一了不同类型的下游任务,从而实现针对所有自然语言处理任务通用的预训练模型。GLM同时融合了BERT和GPT的优点,同时擅长理解和生成任务。在军事语料训练方法上主要从单节点内的优化策略及使用多个节点并行训练的并行策略两个方面展开详细的介绍。节点内优化策略主要有数据并行、分片数据并行、张量模型并行、流水线模型并行等常用方式。这些训练方法有助于模型从大规模军事语料库中实现新军事术语的抽取。
第四章采用预训练模型ChatGLM3作为基础模型,通过“预训练”“微调”两个阶段实现新军事术语抽取,预训练阶段是模型在大规模无标注的军事语料进行预训练,获取语料中的军语语义信息。本部分预训练阶段是对军事语料进行微调数据集构造和微调过程的演示。微调阶段是对预训练好的语言模型在有标注的术语抽取语料上进行微调,使模型掌握军事术语抽取能力。本部分通过ChatGLM3官方提供的微调代码,在继续预训练得到的基础模型进行微调,最终得到MilitaryGLM3-6B模型。由于预训练阶段已经具有了通用知识,经过“预训练”+“微调”的模型性能优于直接在下游任务上进行训练的模型,在提取新军事术语方面有一定的优势。
第五章介绍了定评价指标与实验方法,然后将不同的模型在同样的指标和实验方法下进行对比,分析不同模型的抽取效果。第五章最后列出了MilitaryGLM3-6B在大型军事语料库中抽取的部分新军事术语。
本研究创新之处在于提出了一种新的军事术语自动提取方法。该方法基于大规模军事语料库,采用预训练语言模型的策略,先在大量未标注的军事语料上进行预训练以理解军事语义,随后在小规模标注数据上进行微调。该研究以军内报纸作为主要语料来源,构建了一个专门的语料库,选用了基于ChatGLM架构的语言模型来实施模型训练和术语提取任务。通过对比不同模型,研究证实了这种新范式在提高抽取精度、减少标注数据需求以及增强模型泛用性方面的优势,为军事领域的自然语言处理系统研制提供了新的视角,特别是在术语抽取、军事事件抽取、情报分析等任务中的应用潜力。
本研究尚有许多不足之处,一是相关研究需进一步完善,二是由于多数军事语料具有保密性质,因此相关数据未能一一展示。本课题下一步将深入挖掘军事术语的特征,在大规模语料的基础上,充分利用预训练语言模型相关技术,并结合ChatGLM模型抽取军事术语泛用性强的特点,在具体应用方向进行拓展研究,以进一步提高军事术语抽取的深度应用效果。
在学术思想上,本课题以经验主义和理性主义相结合的思想为指导推动研究创新。预训练模型是基于语言大数据的经验主义方法,语言知识重视不够,本课题在使用神经网络深度学习和预训练模型的经验主义方法的同时,结合基于语言规则的理性主义方法,加强军事术语结构规则等方面的分析。经验主义和理性主义的有机结合有助于术语抽取重点难点问题的解决,推动自然语言处理研究的创新。
在研究方法上,本课题探索了军事术语自动抽取的新路径。通过预训练语言模型“大数据预训练+小数据微调”的新范式,验证了小规模语言数据中研制自然语言处理系统的可行性。其主要优势如下:
一是准确性上,预训练语言模型增加了在大规模军事语料上的预训练阶段,具有更强的军事语义理解能力,抽取精度更高。
二是标注数据上,经过预训练后的微调阶段,预训练语言模型需要的标注数据远远小于传统有监督机器学习方法,节省了人力成本。
三是泛用性强,已训练好的军事语料模型,不仅可以快速迁移到术语抽取任务,还能进一步扩展到军事事件抽取、情报分析等军事领域下游任务上,为后续应用打下坚实基础。
三 成果的主要价值
(1)学术价值
有助于推动自然语言处理和术语学的重点难点问题研究。基于预训练语言模型通过“预训练”+“微调”实现军事术语准确、高效抽取,有助于解决目前自然语言处理领域语言数据资源不足、标注数据多等严重影响自然语言处理系统性能的问题;有助于解决术语人工标注成本高、术语边界模糊易错提、漏提等难题,为相关领域在重点难点问题上的突破提供有益的借鉴。
(2)应用价值
一是有助于推动自然语言处理技术的发展。基于预训练语言模型的术语自动抽取方法,可降低领域专家标注成本,有助于改善自然语言处理系统未登录词的处理能力,推动信息检索和抽取、数据挖掘等自然语言处理研究,具有重要的理论和现实意义。
二是有助于提升军事术语抽取的深度应用效果。采用预训练语言模型实现军事术语自动抽取,泛用性较强,能够提高军事术语抽取的深度应用效果,对军语词典编纂、军事信息检索、军事情报分析以及军事指挥效能有着重要意义,具有重要的国防和军事价值。