广东外语外贸大学李心广主持完成的全国科技名词委科研项目“面向《大数据百科全书》术语表及释义的多语种平台展示研究”(项目批准号为:WT2019006),最终成果为同名研究报告。课题组成员有:彭三城、杜家利、李苏梅、赵九茹、陈帅、龙晓岚。
一 研究的目的和意义
近年,大数据(big data)一词开始越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。随着科学技术的发展,“大数据时代”给人们带来了无限发展与创新的潜能。如今,大数据已经应用到金融、统计学、教育、军事、农业、石油石化等各种领域,渗透到生活与发展研究的方方面面。在运用大数据技术的同时,人们也逐渐意识到,对于大数据术语的翻译没有统一的标准,在交流和研究过程种会造成障碍和误解。借助大数据舞台,规范各领域的术语标准已经成为大势所趋。
二 成果的主要内容
本项目通过TF-IDF的方法构建出查询项和数据项的向量,利用这个两个属于同一空间的向量性质,计算该两项的余弦相似度,从而得出相似度相对较高的所有相关集合,并传送到下一步进行处理。该算法优点在于便于构建相应的模型。其假设前提是对区别的数据来说,最有意义的词语应该是那些在数据中出现频率高,而在整个数据集合的其他数据集中出现频率少的词语,所以如果特征空间坐标系取tf词频作为测度,就可以体现同类文本的特点。另外考虑到单词区别不同类别的能力,tf-idf法认为一个单词出现的文本频数越小,它区别不同类别数据的能力就越大。因此引入了逆文本频度idf的概念,以tf和idf的乘积作为特征空间坐标系的取值测度,并用它完成对权值tf的调整,调整权值的目的在于突出重要单词,抑制次要单词。
TF-IDF是一种统计方法,用以评估查询项对于一个数据集或一个中的其中一份数据的相关程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为数据与用户的查询项之间相关程度的度量或评级。为此,在本展示系统中的查询功能也采用此方法。
词频(term frequency,tf)指的是某一个给定的词语在该文件中出现的频率。TF也可以是指局部的权重值,指第i个索引词在第j篇文档中的权重。也就是同时,为了消除不同数据内容中大小之间的差异,便于查询项和文档项之间的比较,在此标准化。词频引用freq表示第i个索引词在第j个文档中出现的次数,max(tf)表示文档j中所有索引词出现次数的最大值,公式为:
〖tf〗_(i,j)=〖freq〗_(i,j)/(max(〖tf〗_j))
逆向文件频率(inverse document frequency,idf)是一个词语普遍重要性的度量。IDF表示全局的权重值,指第i个索引词在全篇文档中的权重,也被称为第i个词的逆文档频率。IDF越小,代表第i个词越普遍,对文本的区分的贡献越小,也就是抑制某一文档内无意义高频词的负面影响。在下面的公式中,N代表文档总数,n代表出现该词的所有文档个数,bias代表校正值,可以根据实际情况进行调整,这里取0.1.
〖idf〗_i= log_10〖(N/n_i +bias)〗
TF-IDF某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。在获得了TF和IDF后,利用它们的乘积,即可对查询项和文档项构建出属于同一语义空间的向量。w是指第i个索引词在文档j中的所具有的权重,通常它的范围为[0,1]。实际上它是一种权重计算公式。最后查询项或者文档项就是由多个w组合形成,构建形成所需要的向量。
w_(i,j)=〖tf〗_(i,j)*〖idf〗_i
在经历上面的3个步骤后,得到查询项和文档项的向量,通过它们的余弦夹角计算出相似度。同时设定一个阈值,当相似度大于该阈值可以认为输出该条数据。数值越大表示相似度越高,反之越低。计算公式为:
〖cos(θ)〗_(a,b)= (a*b)/(||a|*|b||)
通过TF-IDF初步筛选得到的大数据术语列表中可能还有些词语是同义词,但是查询者的目的一般是希望直接得到包含该词语的数据。为此,在将数据输出到前端之前,通过SQL语句剔除掉所有不包含查询项的数据,建立起TF-IDF和SQL的查询模型,进一步提高搜索的精确程度和效率。
三 成果的主要价值
我国大数据研究启步较早,中国贵阳大数据中心为了将我国大数据研究的最新成果推广于全世界,掌握大数据术语的定义权与话语权,大数据术语的最新定义与翻译成联合国6种工作语言的工作十分重要。《大数据百科全书》的术语表和释义进行联合国语种翻译的隶属于全国科学技术名词审定委员会的“十三五”重大项目下的分项目,是系统介绍大数据领域知识的大型专业百科全书,其读者群体主要为政府政策的制定与执行部门,研究机构、企事业单位中从事大数据相关研究和应用的人士。其中,联合国语种包括汉语、英语、法语、俄语、西班牙语、阿拉伯语。随着《大数据百科全书》的编纂完成,大数据术语的标准与规范也将得到落实。
本项目搭建一个可以从汉语并行翻译为5种语言的数据平台以供展示。涉及多语种的显示,检索等问题。多语种的展示方式,多语种多维度展示。希望经过不断研究,大数据术语表多语种翻译及多媒体展示平台是一个权威、专业的大数据术语翻译参考平台。本项目的主要创新点如下:
本项目在国际上率先建立以中文为主关键词的大数据展示平台,建立多语种的大 数据术语中国定义权威翻译。
本项目从展示性能上,以中文及英语为主关键词,实现11种语言内容查询。
本项目实现术语条目的语音接口,不仅可实现语音输入功能,还可通过语音输出向世界展示大数据“中国声音”。
本项目通过大数据知识图谱的研究,初步实现大数据术语之间可视化关联展示研究。
Word2Vec词汇语义相似度计算的具体操作是将给定词汇的词向量与语料库中的所有词向量进行余弦计算,求出给定词汇的词向量与语料库中的词向量余弦夹角,并进行排序,得到夹角最小的前N个词汇。这N个词汇就是词库中与给定词汇语义最相似的词汇。但是这种词汇语义相似度算法存在两个问题:①计算量极大,求一次词汇语义相似度需要遍历并计算语料库中所有词向量的余弦夹角,遍历过程中还需要做排序计算。②即使使用超大语料库,经过Word2Vec训练后的词向量也不能保证其准确性,计算出的词汇中存在与实际使用不符的情况。先对Word2vec训练后的语料库进行预处理,将计算相似词的性能开销提前计算完成并存储到磁盘中。优化后的词汇语义相似度计算软件在启动时加载已经预处理过的语料,这样在执行词汇语义相似度计算时可以快速查找预处理的结果而不用2次计算,因此大大节省了任务执行时长。
从理论上讲,通过Word2Ⅴec训练后的大量词向量具有准确的空间相对位置,可用于词汇语义相似度比较计算。但在实际使用中,受到训练语料的规模限制、语料內容的书写规范程度以及WordⅤec计算维度的限制,训练后的词向量不完全准确。由于Word2Ⅴec词向量并不具有空间的实际含义,因此调整词向量位置是非常困难的。经过系统优化后的Word2Ve词汇语义相似度算法,词与词之间的相似关系已经预计算完成,通过对预计算后的词与词相似度关系的人工干预,即可实现对词汇语义相似度计算的准确性进行优化。
在大数据发展越来越成熟、运用越来越广泛的同时,提供统一的大数据术语标准是远远不够的。由于不同国家的大数据科研人员对以他国语言发表的大数据方面的科研成果的阅读还是会存在语言不通的障碍,因此,构建统一、专业、具有权威性的大数据术语体系,建立大数据多语种的国际交流服务平台迫在眉睫。在这样的发展背景下,我们研究大数据术语多语种翻译及展示平台,提供一个统一、专业、权威、成熟、可视化的搜索平台具有提高中国学者大数据研究的话语权,大数据术语的定义权,推广中国学者研究成果的重大意义及实用性。