学术科研
科研成果

国际组织术语库集成方法研究

发布时间:2025-02-26 来源:
  天津师范大学宋培彦主持完成的全国科技名词委科研项目“国际组织术语库集成方法研究”(项目批准号为:YB20200011),最终成果为同名研究报告、国际组织术语数据库、计算机软件《国际组织术语服务系统》和发明专利。课题组成员有:米国伟、李怡然、王源雯、田文波、何艳菲、滕艳晓。
一 研究的目的和意义
  国际组织是一类特殊而重要的机构,发布了大量权威性的术语、标准、报告、文件等,甚至建设了数字图书馆,供世界各国使用。我国是许多国际组织的重要成员,参与、享有甚至引领国际组织的知识服务,提高在国际事务中的话语权和规则制定权,有利于把我国建设成为世界主要科技创新中心。研究构建国际组织术语服务体系,既是跟踪国际前沿、开展基础研究的宝贵机会,也是服务国家重大战略、彰显科研价值的难得机遇。立足国内、放眼世界、弘扬学术、服务社会,这是本项目的时代背景和价值追求。
  国际组织术语库大多分散在各个国际组织内部,在知识组织和语义关系层面尚缺乏有效的集成和关联,导致宝贵的术语资源库难以被国内学术界有效研究和使用;同时,许多术语资源没有编制中文版或者仅仅依靠人工简单翻译完成,我国学者对国际组织术语服务体系建设的参与度和规则认知度偏低,严重妨碍了中国与国际组织的有效交流与合作,也与汉语在联合国官方工作语言的法定地位和国际形象不匹配。为解决这两个突出问题,本课题组受全国科学技术名词审定委员会委托,承担了“国际组织术语库集成方法研究”任务,旨在将国际组织发布的术语资源进行映射、关联和集成,实现术语库建设的规范化、标准化和智能化服务。自2020年5月正式启动以来,课题组通过与全国名词委多次访谈对接、开展文献调研、实验设计验证等工作,聚焦解决“术语库集成”和“术语库应用”这两个关键问题,形成了较为深入、系统并具有自主知识产权的研究成果,达到了预期研究目标。
  本项目以国际组织发布的各类术语资源为基础,按照国际组织术语政策、标准规范和技术标准,从知识组织理论的角度开展映射和融合,构建统一的国际组织术语库,采用术语计算技术提高术语知识挖掘效率,进而设计了开放式的术语服务系统方案,结合实际场景探索知识服务的新路径。理论、方法、技术和应用“四位一体”,努力探索国际组织术语服务研究的内在规律和学术体系,是贯穿本项目的主线。
二 成果的主要内容
  以国际组织发布的术语政策和术语资源为切入点,采用术语学、知识组织理论和自然语言处理技术,设计了基于知识组织与术语服务紧密耦合的总体理论架构,提出了开展多语言术语资源映射、融合与知识挖掘的技术路径,进而设计了“互联网+术语服务”的国际化术语服务平台,重点探讨了自动标引、自动摘要、知识图谱等术语服务功能及其应用场景,较为完整地构建了“理论-方法-技术-应用”有机衔接、国际组织多语言术语资源有效集成、国内国外多场景应用相互融通的术语知识服务新体系。
  (1)研究了国际组织术语政策和数据质量治理机制。重点对国际组织术语规范、元数据标准、描述规范和数据开放政策进行了系统调研和学术审视,以形成规范统一、语义清晰的术语治理与服务体系,从源头厘清国际组织术语服务基本脉络和数据基础。以DAMA数据管理成熟度模型为理论指导,对国际组织术语数据库的建设流程和标准规范进行了探究,并以UNESCO叙词表为例验证国际组织术语数据库建设的可行性。结果表明,基于体系化、标准化、可评测的数据管理成熟度模型,可以为术语数据库建设、术语服务应用和术语学基础研究提供理论和方法指导,提高我国术语数据质量治理与国际化服务能力。
  (2)设计了基于ISO标准的国际化术语服务理论框架。以术语学和知识组织理论为指导并进行有机融合,提出了基于ISO国际标准的术语集成方法,通过术语映射和融合两种机制实现了术语的柔性化组织,并采用国际通用的SKOS描述语言,形成了国际通用的术语服务新框架,具有知识描述标准化、知识组织柔性化、知识计算形式化、知识更新自动化、服务系统模块化、知识发现场景化等6个重要理念,理论上较好地阐释了知识组织与术语服务的内在机理,为术语服务提供理论基础。针对当前知识分散、多源异构造成的信息孤岛问题,探索国际化、规范化的术语语义映射机制,为术语库集成提供新思路和应用场景。引入ISO 25964中心结构模型,采用语义相似度和文本相似度计算相结合的方法,基于继承推理实现术语之间的语义映射。实验结果表明,不仅提高了知识的关联度,而且映射流程符合国际规范,有助于术语知识共建共享。
  (3)研制了基于国际组织术语库和多机器翻译的高质量译文萃取、融合和主题自动标引关键技术。基于机器翻译和深度学习算法,将国际组织发布的资源进行跨语言挖掘、知识发现和决策支持。重点形成了两项关键技术:一是以国际组织术语库为“知识库”,研究了基于多源机器翻译引擎的高质量译文萃取与融合技术,将国际组织专业文献快速、准确翻译成高质量的中文文本,为进行自动聚类和知识监测提供高质量数据;二是基于国际组织术语库和术语语义计算算法,研究了中英文双语词汇链构建方法,支撑国际组织文本信息主题标引,快速发掘国际组织最新动向和前沿热点。重点解决了跨语言专业知识自动挖掘问题,两项技术均已申报发明专利并受理。
  词汇链(Lexical Chain)是文本中语义关联的词汇集,以词汇链为语境,能够较好的反映文本结构、揭示话题焦点。实验结果表明,基于词汇链进行国际组织文献主题自动标引F值为72.97%,准确度较高、计算速度快、一致性好,在方法上是可行的,对信息检索、自动标引、话题追踪、热点分析等领域具有重要作用。研究还发现,相较于当前的机器学习方法,词汇链具有较强的语义关联性和语境可计算特征,计算结果具有更好的语言学理据性和解释力。
  简报是重要的情报产品,摘要和关键词汇集是简报的核心组成部分,从用户认知角度快速生成信息简报,有助于更好的满足用户对专业知识的需求、提高情报供给服务能力。以认知科学中的“选择性注意衰减”理论模型为基础,将信息简报的生成特别是术语抽取作为人类信息加工的模拟过程,表明选择性注意衰减模型不仅能够提高摘要效果,覆盖文本的核心信息,同时该方法自动生成摘要结果较为符合人的信息认知习惯;将认知科学与计算模型紧密结合,对于提高信息简报的可解释性和科学性有显著作用,有助于形成可计算、可解释的信息简报生成与知识服务模式。
  (4)形成了基于SOA和数据中台的“互联网+术语服务”跨平台技术方案。采用SOA架构和数据中台技术,将术语服务功能进一步优化,形成以中文为核心的国际化知识监测与服务新格局,满足全球用户7*24小时的知识服务。“数据中台”模式则以API接口方式,打破不同系统之间的隔阂,较好的解决跨系统术语服务的“信息孤岛”问题,具有国际化、标准化、可共享等特色。本项目设计了一种基于SOA的国际组织术语服务系统方案,以业务流程重组(BPR)思想为指导,从术语服务系统架构、关键技术和基本功能3个方面进行总体设计,形成以用户为中心的术语服务方案。通过运用SOA架构和数据中台技术双结构,有助于提高多源异构术语服务资源的互联互通和全球化服务能力,最终面向用户提供7*24小时的在线服务,形成中文为主、多语并存的“互联网+术语服务”新模式。
  (5)探索了场景化术语服务模式和数据开源共享。针对国际组织前沿领域监测,设计了针对国际组织的定题领域知识监测方法,以简报形式快速、准确获取国际最新知识,提高我国各类机构的快速决策能力和国际化科技交流能力。构建术语知识图谱,直观发现实体之间的关系,达到知识发现与知识服务的目的,从而提高术语数据库的利用率,帮助用户从整体、全局的角度了解、掌握前沿知识,发现知识之间的潜在关系。设计了多语言、开放式的术语服务系统原型,并实现术语库的动态更新。
三 成果的主要价值
  本项目基于知识组织和术语映射国际规范,探讨了多学科交叉术语学研究的路径,对术语数据质量治理、术语知识组织与映射、术语服务体系重构开展了理论探讨,并形成了有较强解释力和可操作性的研究路线。研究发现,以ISO、SKOS等国际规范为基础将中文术语与国际组织术语库的映射是可行的,不仅能够将国际组织术语库的各类语义关系引入到我国的术语工作中来,从多个维度揭示语义关系和概念体系,提升了中文术语规范化描述、组织、集成、共享和服务等的质量和效率,推动了中文术语知识组织和跨体系互操作研究。
  应用价值体现在,本项目形成了人机两用的术语知识库,可以作为数据挖掘和情报分析的有力支撑,本项目开展的实验表明,术语知识库可以与深度学习等技术紧密结合,满足跨语言检索、自动标引、自动摘要等多种知识化服务,更好的适应大数据时代智能化的技术需求,形成智能化、知识化、工程化的术语服务新方式,提升了我国术语计算技术能力和智能化服务水平。
  相关研究成果:已经发表学术论文9篇(含会议论文),参加学术会议6场并投稿论文,与全国科技名词委、全国语言与术语标准委、人民日报社等单位合作,报送研究成果,积极参加语言政策、术语学等会议并获得学术界关注和肯定。相关成果见“佐证材料”。
  本项目设计的“互联网+术语服务”模式,以术语为切入点,探索了具有更高精准度的文本主题自动标引、摘要和推送方法,对国际组织热点话题等进行动态发现、实时监测和自动推荐。相关成果已受到人民网等媒体关注,开展前期对接合作,有望用于国际科技新闻资讯识别,提高我国国际影响力;项目负责人受聘担任“全国语言与术语标准化委员会计算机辅助术语工作分委会”副秘书长,积极推动国际组织术语活动与国家标准术语的推广应用;相关研究成果多次与全国科技名词审定委员会交流,有望用于科技名词审定、术语服务平台设计等重要业务领域,从而有效提高我国术语学研究与服务的能力;参加了“第八届中国语言政策与语言规划学术研讨会”、“中国术语学建设暨术语与认知国际研讨会”等,积极推动国际组织术语研究纳入语言政策与战略规划,促进国际交流;参加中国科协组织的第五届科协发展理论研讨会,被评委优秀论文并正式发表。
  相关技术已申请发明专利2项(已通过实质性审查)、软件著作权1项、术语数据库1套,形成具有自主知识产权的核心技术与特色数据资源。

附件下载: