基于WordNet的蒙古文名词语义网上下位语义关系树构造方法的研究
这是一篇关于WordNet,蒙古文,名词语义网,上下位语义关系,构建方法的论文, 主要内容为英文WordNet是以词汇语义为基本节点,以词汇之间的各种语义关系为连接方式而构建的复杂网络。它的构建为自然语言处理中的机器翻译、语义信息提取、自动文摘、信息检索等相关应用提供了基础性的语义信息。而蒙古文词汇语义网,是希望借用英文WordNet现有的各种语义关系,结合蒙古文自身的特点而构建的语义网络。它的构建成功同样将为蒙古文的相关语义信息处理工作提供不小的辅助。本文研究的蒙古文名词语义网上下位语义关系树的构建,是蒙古文词汇语义网中的名词子网的一种十分重要的语义关系的构建,而且该语义关系子网的构建成功,将对蒙古文词汇语义网其他语义关系子网的构建提供可直接借鉴的思路与方法。 作为词汇语义网,需要有丰富的词汇来源,为此本文选择了《蒙古语语义信息词典》的名词分库作为蒙古文名词语义网的基本词汇库,因为该词典中恰好是以词汇语义为基本词条,而不是一般词典的那种以词形作为基本词条的组织方式,这将为我们的工作提供很大的便利。而为了借用英文WordNet中的各种语义关系体系,本文使用了东南大学提供的英文WordNet的底层词汇语义关系数据库。 本文在研究了英文WordNet的基本架构和各种语义关系的基础上,又参考了同属于词汇语义网络的“中文概念词典”的构建方法。“中文概念词典”直接借用了英文WordNet本身的语义关系体系,这一点本文的意图与它相同,但是它所采用的将英文语义节点直接翻译成中文的构建方法无法被本文直接借鉴,因为本文利用的词汇来源——《蒙古语语义信息词典》中的蒙古文名词词汇量远小于英文WordNet中的名词词汇量。最终我们设计了自己独有的从蒙古文同义词集合向英文WordNet映射的构建方式。 为了方便有效地构建蒙古文名词语义网上下位语义关系树,以及为了方便今后对它的查询和修改,本文设计开发了一款可视化的网络管理应用平台。在该平台的帮助下,词典编辑人员可以进行从《蒙古语语义信息词典》中抽取的名词同义词集合向英文WordNet映射的工作,可以查看建立好的上下位语义关系树的任何局部,还可以对该树进行增加删除节点、子树移动、断绝上下位关系的操作;而普通用户可以利用该平台的查询模块完成对某蒙古文单词的包括上位关系、同义关系、反义关系等十几种语义关系的对应词汇的查询工作。为了完成这款网络平台,本文研究使用了java语言的MVC编程框架,即利用JSP页面向用户显示一个可视化的管理应用平台,并在底层使用ACCESS数据库存储从《蒙古语语义信息词典》和英文WordNet中抽取的词汇信息。 同时为了完成蒙古文在页面的正常显示,本文设计了先将蒙古文以长二进制字符流的格式从底层数据库读出再转换成对应的蒙古文的显示方法。
基于语义增强的短文本匹配模型研究
这是一篇关于短文本匹配,语义增强,WordNet,预训练模型,深度学习的论文, 主要内容为短文本匹配旨在通过提取两个短文本的特征以预测它们之间的关系。短文本匹配作为自然语言处理领域的基础性研究,其效果的好坏直接影响了如文本蕴含识别、问答系统、信息检索等下游任务的性能。因此,短文本匹配任务作为自然语言处理的一项关键技术受到广泛的关注。目前的短文本匹配研究多聚焦于采用深度神经网络和注意力机制提取两个短文本的语义和交互特征,并通过设计不同的网络结构和交互方式构建短文本匹配模型。尽管现有的研究已经取得了一定的成果,但仍存在以下问题:(1)现有的短文本匹配模型无法有效地平衡效果和效率的关系,效果较好的模型往往伴随着复杂的网络结构和大量的训练参数,导致模型推理速度较慢,无法很好的满足实际场景的需求;(2)鉴于短文本匹配任务中的文本长度较短,现有的模型无法依据有限的上下文准确理解一些短文本中关键单词的语义,进而影响模型对两个短文本间关系的判断,导致模型匹配效果较差。针对上述问题,本文从以下三个方面展开研究:(1)针对短文本匹配任务中现有模型结构较为复杂和参数量较大导致推理速度较慢的问题,本文设计了高效轻量的短文本匹配模型(ELTM)。该模型采用简单高效的卷积神经网络获取短文本的语义信息,然后基于残差连接多次循环以共注意力层和融合层构成的交互模块,获取深层次的交互信息并与语义信息进行融合。ELTM模型着重于短文本的原始语义信息和深层次的融合信息,而优化其它模块的结构以减少参数、提升速度。本文在Quora、Twitter-URL、Sci Tail和SICK-E四个短文本匹配数据集上进行了大量的对比实验,结果表明,ELTM模型不仅大幅减少了模型的参数,而且在四个数据集上均取得了优异的效果。(2)针对现有模型无法准确理解一些短文本语义的问题,本文提出了基于语义增强的轻量级匹配模型框架。该框架首先对于短文本中的每一个单词,采用无监督的方法从Word Net知识库中选取最合适的释义描述信息作为外部语义知识,并采用双向门控循环单元(Bi-GRU)获取外部语义知识的表示矩阵;然后基于门控机制将外部知识选择性融入到短文本的语义表示中,增强轻量级模型对短文本的语义理解能力。经过大量的对比实验和实证分析表明,在Siamese-CNN、Siamese-LSTM、RE2和ELTM模型的基础上加入语义增强框架后,均可以有效地提升相应模型在短文本匹配任务的效果。(3)本文进一步提出了基于语义增强的预训练匹配模型框架。该框架同样基于Word Net获取外部语义知识并使用Bi-GRU进行编码得到其知识表示矩阵,然后将两个表示矩阵拼接后输入到Transformer编码层获取外部语义知识的交互信息表示。同时两个短文本输入到预训练模型获取其匹配特征。最后基于多头注意力机制将匹配特征与外部知识的交互信息表示进行融合,丰富模型对两个短文本间关系的特征表示。对比实验结果表明,在多种预训练模型的基础上加入本文提出的语义增强框架,均可以有效地提升相应模型在短文本匹配任务的效果,且相较现有知识增强方法提升幅度更大。综上所述,本文提出了轻量级短文本匹配模型ELTM,并在短文本匹配任务上相较基线方法取得了效果和效率的提升。此外,本文在轻量级模型和预训练模型的基础上融入Word Net知识库中单词的释义描述信息,分别设计了基于语义增强的轻量级匹配模型和预训练匹配模型,并有效地提升了相应模型的匹配效果。研究成果可应用于问答系统、信息检索等实际场景中,对展开相关研究具有借鉴意义。
基于WordNet的蒙古文名词语义网上下位语义关系树构造方法的研究
这是一篇关于WordNet,蒙古文,名词语义网,上下位语义关系,构建方法的论文, 主要内容为英文WordNet是以词汇语义为基本节点,以词汇之间的各种语义关系为连接方式而构建的复杂网络。它的构建为自然语言处理中的机器翻译、语义信息提取、自动文摘、信息检索等相关应用提供了基础性的语义信息。而蒙古文词汇语义网,是希望借用英文WordNet现有的各种语义关系,结合蒙古文自身的特点而构建的语义网络。它的构建成功同样将为蒙古文的相关语义信息处理工作提供不小的辅助。本文研究的蒙古文名词语义网上下位语义关系树的构建,是蒙古文词汇语义网中的名词子网的一种十分重要的语义关系的构建,而且该语义关系子网的构建成功,将对蒙古文词汇语义网其他语义关系子网的构建提供可直接借鉴的思路与方法。 作为词汇语义网,需要有丰富的词汇来源,为此本文选择了《蒙古语语义信息词典》的名词分库作为蒙古文名词语义网的基本词汇库,因为该词典中恰好是以词汇语义为基本词条,而不是一般词典的那种以词形作为基本词条的组织方式,这将为我们的工作提供很大的便利。而为了借用英文WordNet中的各种语义关系体系,本文使用了东南大学提供的英文WordNet的底层词汇语义关系数据库。 本文在研究了英文WordNet的基本架构和各种语义关系的基础上,又参考了同属于词汇语义网络的“中文概念词典”的构建方法。“中文概念词典”直接借用了英文WordNet本身的语义关系体系,这一点本文的意图与它相同,但是它所采用的将英文语义节点直接翻译成中文的构建方法无法被本文直接借鉴,因为本文利用的词汇来源——《蒙古语语义信息词典》中的蒙古文名词词汇量远小于英文WordNet中的名词词汇量。最终我们设计了自己独有的从蒙古文同义词集合向英文WordNet映射的构建方式。 为了方便有效地构建蒙古文名词语义网上下位语义关系树,以及为了方便今后对它的查询和修改,本文设计开发了一款可视化的网络管理应用平台。在该平台的帮助下,词典编辑人员可以进行从《蒙古语语义信息词典》中抽取的名词同义词集合向英文WordNet映射的工作,可以查看建立好的上下位语义关系树的任何局部,还可以对该树进行增加删除节点、子树移动、断绝上下位关系的操作;而普通用户可以利用该平台的查询模块完成对某蒙古文单词的包括上位关系、同义关系、反义关系等十几种语义关系的对应词汇的查询工作。为了完成这款网络平台,本文研究使用了java语言的MVC编程框架,即利用JSP页面向用户显示一个可视化的管理应用平台,并在底层使用ACCESS数据库存储从《蒙古语语义信息词典》和英文WordNet中抽取的词汇信息。 同时为了完成蒙古文在页面的正常显示,本文设计了先将蒙古文以长二进制字符流的格式从底层数据库读出再转换成对应的蒙古文的显示方法。
基于WordNet的计算机领域汉英蒙术语知识图谱研究
这是一篇关于蒙古文,WordNet,知识图谱,IC值的论文, 主要内容为随着信息全球化的迅猛发展,万物互联成为了时代发展趋势,这种发展趋势所产生的信息和数据也在呈直线式上涨,这些信息和数据刚好可以用作关系分析的有效数据源。倘若传统的智能化是对每一个个体进行剖析,那么在信息化的今天,万物互联的产生则不仅仅是对每一个个体进行分析,对于个体与个体之间的关系研究也成为了热点。对于任何一个项目,只要对个体间的关系进行分析,就会出现知识图谱的影子。同时,随着信息全球化和网络科技的极速发展,互联网为人们的生活、工作和学习带来了全新的体验,在信息检索、机器翻译等领域需要知识库的支撑,知识图谱的出现恰好解决了这一难题。在信息化的发展进程中,蒙古文的信息资源也极为丰富,但是在实际应用中可以直接使用的,却相对匮乏,大量的蒙古文信息资源只是被简单的搬运到互联网中,这对于蒙古文信息资源的有效传播和利用极其不利。因此,构建蒙古文知识图谱,是一件亟待解决的事情。WordNet底层数据库中的数据属于结构化数据,该结构化数据大致涵盖所有概念的信息,因此,本文选用WordNet底层数据库中的数据作为数据源。基于WordNet构建的知识库并不罕见,比如人们熟知的本体库、语义词典、蒙古文名词语义网等等。本文选用WordNet作为数据源,提高了资源的利用率,与非结构化数据相比,减少了对资源的预处理,节约了时间,加快了构建速度。本文研究的是基于WordNet的计算机领域汉英蒙术语知识图谱,本文对构建知识图谱过程进行了深入研究,具体各项研究内容如下:1.首先分析影响语义相似度的参数,在综合分析各参数的优劣势后将概念信息量(Information Content,IC)定为参数,使用了改进的IC值计算模型。在对语义相似度进行计算时,不仅仅依靠WordNet中概念节点自身的信息,各种语义关系也需要加以考虑;将IC值作为计算语义相似度的参数后,对目前流行的四种算法进行了系统分析。最后本文选用混合式语义相似度计算方法,该模型对各种语义信息进行考证,包括距离、深度、IC、概念特征和语义关系。2.本文所研究的基于WordNet的计算机领域汉英蒙术语知识图谱的构建是按以下流程进行的:首先,通过人工干预的方法将计算机领域术语划分为多个彼此之间不包含的子领域;其次,为每个子领域赋予一个核心概念,利用语义相似度算法对每个核心概念的概念集进行抽取,获得核心概念的最终概念集;之后,将最终概念集通过达日罕—东北亚语言翻译平台(由小牛翻译提供技术支持)进行翻译,进而使得WordNet中抽取到的计算机领域汉英蒙术语得到资源整合;最后,使用Neo4j图形数据库,使所构建的目标领域知识图谱可视化展示。3.基于WordNet的计算机领域汉英蒙术语知识图谱的构建,为构建蒙古文知识图谱提供了经验,也为构建少数民族语言知识图谱提供了借鉴。展示具体的构建方法与流程,其目的是为了对汉英蒙三语知识图谱的进一步完善起一定的参考作用。
基于WordNet的计算机领域汉英蒙术语知识图谱研究
这是一篇关于蒙古文,WordNet,知识图谱,IC值的论文, 主要内容为随着信息全球化的迅猛发展,万物互联成为了时代发展趋势,这种发展趋势所产生的信息和数据也在呈直线式上涨,这些信息和数据刚好可以用作关系分析的有效数据源。倘若传统的智能化是对每一个个体进行剖析,那么在信息化的今天,万物互联的产生则不仅仅是对每一个个体进行分析,对于个体与个体之间的关系研究也成为了热点。对于任何一个项目,只要对个体间的关系进行分析,就会出现知识图谱的影子。同时,随着信息全球化和网络科技的极速发展,互联网为人们的生活、工作和学习带来了全新的体验,在信息检索、机器翻译等领域需要知识库的支撑,知识图谱的出现恰好解决了这一难题。在信息化的发展进程中,蒙古文的信息资源也极为丰富,但是在实际应用中可以直接使用的,却相对匮乏,大量的蒙古文信息资源只是被简单的搬运到互联网中,这对于蒙古文信息资源的有效传播和利用极其不利。因此,构建蒙古文知识图谱,是一件亟待解决的事情。WordNet底层数据库中的数据属于结构化数据,该结构化数据大致涵盖所有概念的信息,因此,本文选用WordNet底层数据库中的数据作为数据源。基于WordNet构建的知识库并不罕见,比如人们熟知的本体库、语义词典、蒙古文名词语义网等等。本文选用WordNet作为数据源,提高了资源的利用率,与非结构化数据相比,减少了对资源的预处理,节约了时间,加快了构建速度。本文研究的是基于WordNet的计算机领域汉英蒙术语知识图谱,本文对构建知识图谱过程进行了深入研究,具体各项研究内容如下:1.首先分析影响语义相似度的参数,在综合分析各参数的优劣势后将概念信息量(Information Content,IC)定为参数,使用了改进的IC值计算模型。在对语义相似度进行计算时,不仅仅依靠WordNet中概念节点自身的信息,各种语义关系也需要加以考虑;将IC值作为计算语义相似度的参数后,对目前流行的四种算法进行了系统分析。最后本文选用混合式语义相似度计算方法,该模型对各种语义信息进行考证,包括距离、深度、IC、概念特征和语义关系。2.本文所研究的基于WordNet的计算机领域汉英蒙术语知识图谱的构建是按以下流程进行的:首先,通过人工干预的方法将计算机领域术语划分为多个彼此之间不包含的子领域;其次,为每个子领域赋予一个核心概念,利用语义相似度算法对每个核心概念的概念集进行抽取,获得核心概念的最终概念集;之后,将最终概念集通过达日罕—东北亚语言翻译平台(由小牛翻译提供技术支持)进行翻译,进而使得WordNet中抽取到的计算机领域汉英蒙术语得到资源整合;最后,使用Neo4j图形数据库,使所构建的目标领域知识图谱可视化展示。3.基于WordNet的计算机领域汉英蒙术语知识图谱的构建,为构建蒙古文知识图谱提供了经验,也为构建少数民族语言知识图谱提供了借鉴。展示具体的构建方法与流程,其目的是为了对汉英蒙三语知识图谱的进一步完善起一定的参考作用。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码导航 ,原文地址:https://bishedaima.com/lunwen/53712.html