学术科研
科研成果

基于科研基金语料库的术语自动抽取及其应用

发布时间:2025-02-27 来源:
  北京师范大学珠海分校管理学院姜赢主持完成的全国科技名词委科研项目“基于科研基金语料库的术语自动抽取及其应用”(项目批准号为:YB2020003),最终成果为手机软件《课题部落》和系列论文《海量标注语料库智能构建系统的设计与实现》等。课题组成员有:杨静、赵欣、赵丕显、朱哲宇、付佳林、潘泽嘉。
一 研究的目的和意义
  当前,我国设立的各类科研基金体现了政府“创新驱动,改革引领”的风向标。它主要以国家、省市各级重点研发计划、科技重大专项、自然科学基金和重点实验室等形式设立专项经费资助,按年度发布申报指南和申报通知,并以R&D项目(或课题)为基本组织形式进行实施。
  科研基金申报通知的申报指南一般经过前期调研、专家论证、征集意见多个环节,结合区域产业发展需求,对重点资助方向进行了规划,体现了政府对于创新驱动发展战略的布局和引导。同样,获得立项资助的项目,能够体现开创性和引领性,成为科学前沿的牵引器。申报指南全文和立项名称等文本信息,形成了科技管理与服务领域独有的科研基金语料库。术语是资源内容的重要表征元素,术语语义的充分挖掘和利用,是有效揭示科技领域知识结构的基础。将科研基金涉及的术语与申报人员的学术背景进行匹配,可为申报人员推荐最适合他申报的科研基金。本课题在微观层面进行应用实践,使得申报人员能做到知己知彼,减少申报盲目性,还能实现申报规划和推送提醒,做到有的放矢,提高申报中标率。
二 成果的主要内容
  本课题以科研基金术语为研究对象,通过设计和实现科研基金术语自动抽取方法,从我国1万种以上科研基金语料中自动抽取术语,建立科研基金术语数据库。本课题力求将科研基金术语应用于基金申报应用场景,达到提高科研基金申报效率和效果的目标。
  本课题分为“基础数据建设”、“关键技术攻关”和“案例应用分析”这3逻辑相关的研究内容,层层递进展开研究:
  (1)科研基金语料库设计与构建:科研基金语料是本课题术语自动抽取的来源。本课题将设计科研基金语料库内容与结构,研发科研基金语料采集系统,通过多维思路、多种渠道和多样方式进行采集、梳理和校对,建立高质量的科研基金书语料库,为后续技术研究提供数据基础。
  (2)启发式HC-value术语自动抽取方法:针对科研基金语料3层结构的特点,本课题设计改进C-value的启发式HC-value术语自动抽取方法,以更好地测度术语的术语性,并改善低频术语抽取性能。在进行对比测试基础之上,从科研基金语料库中自动抽取术语,形成科研基金术语数据库,为后续应用研究提供术语数据支持。
  (3)基于术语匹配的科研基金申报应用:从应用的角度研究科研基金术语匹配机制,以此研发和推广科研基金申报推送系统商业应用,为用户提供1千份科研基金申报定制咨询报告,最终完成科研基金申报应用案例库建设。
  具体来说,本课题提出一种面向科研基金3层语料库的术语自动抽取方法,并将之命名为Heuristic C- value(HC-value) 方法。在已有研究基础上,本课题提出整合“句子”和“词汇”级别的语料资源,来改进C-value 方法,以更好地测度术语的术语性,改善低频术语抽取性能。
  C-value方法没有考虑候选术语的单元性,因此常常将C-value 方法与测度单元性的方法结合,进行中文术语抽取。本课题也采用互信息方法计算候选术语的单元性,筛取候选术语。基本思想是: 对单词候选术语,不计算互信息值;对2-6词候选术语,计算其互信息值,并为2-6词候选术语各设定一个阈值,将互信息值小于阈值的词组从候选术语集中删除。候选术语将从“篇章”级别科研基金语料中抽取。
  在术语性方面,HC-value算法的基本假设是:来源于“句子”级别的立项名称所包含的术语,比“篇章”级别的申报指南中的术语,更具有术语性。如果立项名称中出现的某个领域特殊关键词,这个关键词是术语的可能性大幅提高。因此,在计算C-value时,如果大量立项名称中出现了申报指南中抽取的某个候选术语,将设置一个α提升权值(boost);同理,如果用户在科研基金申报推送系统中大量搜索的关键词(也就是“词汇”级别语料),出现在从申报指南抽取的候选术语列表中,也将设置一个β升权值(boost)。显然β≫α,因为“词汇”级别语料与术语更贴近,而且来直接自于领域用户,它的“启发性”更大。本课题将通过反复对比测试C-value改进的各种算法(例如,PCC-value、STC-value和EC-value等),进一步调整α和β达到最优值,最终确定HC-value算法参数与模型,并以此进行科研基金术语自动抽取,建立术语数据库,为后续应用研究提供术语数据支持。
  综上所述,本课题提出的HC-value术语自动抽取方法,开拓了多粒度、多维度语料术语自动抽取的新思路,适用于期刊论文、网络文章等包含正文、标题和关键词的多级语料术语自动抽取。
三 成果的主要价值
  近年来术语自动抽取相关研究非常活跃,各类理论方法不断优化。本课题也提出基于改进C-value的启发式HC-value术语自动抽取方法,以解决科研基金语料库同时包含“篇章”、“句子”和“词汇”3层级别复杂语料情况下的术语自动抽取问题,具有理论研究价值。
  我国科研基金申报人员面临申报难度大、中标率低和盲目性高等困境。本课题使得申报人员能做到知己知彼,减少申报盲目性,还能实现申报规划和推送提醒,做到有的放矢,提高申报中标率,为用户出具科研基金申报定制咨询报告。目前,课题负责人已指导学生成立了科技服务创业公司,专门负责成果转化和应用推广,潜在市场价值在千万人民币级别。
  为申报人员推荐合适的申报机会,无形中提高了科研基金资助的针对性,最终表现为政府部门科研投入产出绩效的提升,实现将有限的科研资源分配到最急需的、最合适的、最有潜力的科研机构、科研项目和科研人员身上,预期社会效益显著。

附件下载: