融合知识图谱的自然语言推理算法研究
这是一篇关于自然语言推理,文本蕴含识别,知识图谱,胶囊网络,外部知识信息的论文, 主要内容为自然语言推理的主要任务是在给定前提和假设文本的情况下,让机器推理出前提和假设之间存在的蕴含关系,是自然语言处理领域里一项基础且重要的研究,有着广泛的应用前景。知识图谱的引入为自然语言推理模型提升了泛化能力,然而现有融合知识图谱的推理方法没有考虑知识子图构建过程中的噪声问题;传统图神经网络对知识子图进行编码会造成部分结构化知识信息的丢失,影响最终模型的准确率。针对以上问题,本文首先从连接前提和假设之间的路径信息考虑,提出优选路径的子图构建策略,然后构建基于胶囊的图编码网络对提取到的知识子图进行编码以最大程度地保留子图中的知识信息,本文所做的主要研究工作和创新点如下:1、针对子图构建过程中的噪声问题,提出优选路径的子图构建策略。结合权重信息和路径长度信息进行知识子图过滤,从而减少图中未匹配实体的数量,增加子图的上下文相关度,同时为了更进一步获取子图中的知识信息,对前提和假设构成的子图进行编码,将得到的定长向量融入基于文本的推理模型做训练,从而构建出文本与图联合训练的推理模型。2、针对传统图神经网络编码子图造成的信息丢失问题,本文提出融合胶囊网络的知识增强型自然语言推理模型(Caps-KGEIM),通过胶囊单元,将图卷积神经网络输出的标量形式特征转化为向量形式以更好地保留图中的结构化知识信息,使文本向量和图向量相融合做训练,为基于文本的推理模型丰富了外部知识信息。3、使用neo4j做知识图数据的管理,配合Pytorch深度学习框架搭建神经网络模型,分别在CNLI和RITE数据集下对模型性能做相关实验,结果表明本文的子图构建方法相比固定跳数的方法能够得到更加纯净的知识子图,和多个经典基线模型对比,本文提出的模型均有不同程度的识别准确率提升。
基于深度学习的自然语言推理算法研究与实现
这是一篇关于深度学习,自然语言推理,图注意力网络,依存句法树,预训练语言模型的论文, 主要内容为自然语言推理是检验自然语言理解能力的基础任务之一。其任务主要是输入提供的句子对(前提和假设),输出句子间的语义关系(蕴含,中立,矛盾)。目前自然语言推理有两个重要研究方向:外部知识引入和结构语义理解,然而这两个方向目前存在一些问题亟待解决。问题一是外部知识引入机制不充分不灵活。先前的方式只是引入了知识图谱中的三元组,而三元组只是知识图谱中相对简单的一种构成单元,而且引入的外部知识方式不是一个单独的网络层,需要做大量的预处理和模型改造工作,这一定程度上限制其适用到其他已有的推理模型上。问题二是自然语言推理模型的结构语义理解能力不足。以往自然语言推理模型在对结构语义能力要求很高的样本子集上测试表现都比较差。最后,将语义推理算法应用到实际场景中也是本论文的面对的一个挑战。针对以上问题本论文提出以下解决方案:(1)针对引入外部知识机制不充分不灵活的问题,本论文提出了一种新型的为NLI模型提供外部知识的机制EDGEGAT(Edge enhanced Graph Attention Networks)。该框架采用图注意力网络对外部知识子图进行网络结构信息嵌入学习,并将推理模型和图网络联合训练,为推理模型实现引入外部知识。同时本论文对图注意力网络改进,增加了计算图中边属性重要性。经在相关自然语言处理数据集上验证,EDGEGAT 比之前外部知识引入机制表现更好,而且可以灵活地为多个待引入外部知识的NLI模型提升效果。(2)针对目前的自然推理领域的模型的结构语义理解能力不足的问题,本论文提出一种新型网络DtreeTrans(Dependency syntax tree based Transformer)。DtreeTrans采用基于依存句法树构成图的邻接矩阵作为Transformer网络的掩码矩阵的思想,为Transformer主动增强句法特征。具体的使用方法是:在BERT类预训练语言模型微调时,替换其中所有的Transformer为DTreeTrans,使预训练语言模型感知句子对中的结构语义信息。DTreeTrans增强的预训练语言模型在结构语义测试数据集上准确率有明显提升并且综合的语义理解能力也有明显的进步。(3)针对将自然语言推理算法应用到实际场景中的挑战,本论文搭建了自然语言推理算法演示平台。平台提供数据预处理、模型训练、模型预测和结果可视化的功能。针对用户,平台支持选择EDGEGAT和DtreeTrans两种方法进行计算。平台也能够支持开发者自主决定为具体的推理模型引入外部知识或者增强结构语义理解能力,同时开发者可根据具体的开发需求调用系统的中某项功能模块。可调用模块包括数据存储模块、数据预处理模块、推理模型模块、输出模块、后端服务模块和前端展示模块。
抽取式中文机器阅读理解研究
这是一篇关于问答系统,机器阅读理解,预训练语言模型,自然语言推理,深度学习的论文, 主要内容为随着人工智能理论和技术的飞速发展,机器阅读理解成为学术界和工业界研究的热点之一。机器阅读理解,是由计算机自动根据给定的文本来回答用户所提出的问题。机器阅读理解不仅能提升问答系统的准确度和丰富度,而且还可以作为衡量机器是否能理解人类语言的标准之一。机器在进行阅读理解时需要具备两个方面的能力:1)尽可能回答有答案的问题,2)尽可能识别无答案的问题。尽管机器阅读理解在近几年取得了突破性的进展,但是仍然存在一些不足,例如:1)当前方法侧重于提升通用预训练语言模型的表示能力,并没有针对机器阅读理解的特点进行优化,导致其回答问题的能力有所欠缺;2)当前方法假设给定文本中一定存在答案,无法有效地识别无答案的问题。针对以上两点不足,本文提出基于联合注意力机制的机器阅读理解模型来提升回答问题的能力,以及基于推理和验证的机器阅读理解模型来提升识别无答案问题的能力。本文主要工作如下:(1)本文提出了一个基于联合注意力机制的机器阅读理解模型(JointAtt-MRC),在预训练语言模型的网络结构后面添加信息交互层来加强模型对文本的表示能力,提高模型在机器阅读理解上的表现。该模型不仅通过双向长短期记忆网络缓解预训练语言模型对于局部依赖信息捕获能力不足的问题,而且使用联合注意力机制强化自注意力机制的权重表示。针对中文机器阅读理解数据集规模比较小、结构不统一的问题,本文采用机器翻译的方式,将英文机器阅读理解数据集SQuAD转换成中文,以此构建了一个中文机器理解数据集--Chinese-SQuAD,数据量达到11万,数据集格式与SQuAD2.0保持一致。实验结果表明,相比基于标准预训练语言模型的机器阅读理解模型,JointAtt-MRC在CJRC和Chinese-SQuAD数据集上取得了更好的表现。(2)本文提出了一个基于推理和验证的机器阅读理解模型(InferVerif-MRC),在单一机器阅读理解模型的前面与后面,添加额外的前置推理器与后置验证器,提高识别无答案问题的准确度。人在做阅读理解时,第一步通读全文,判断能否从文章中找到问题的答案;第二步精读文章,寻找问题的答案;第三步验证找出答案的合理性。一般端到端的机器阅读理解模型类似于第二步,精读文章去寻找答案。InferVerif-MRC模拟第一步和第三步,通过前置推理器(通读)和后置验证器(验证合理性)来提升模型识别无答案问题的能力。实验结果表明,相比单一的机器阅读理解模型,InferVerif-MRC在CJRC和Chinese-SQuAD数据集上取得了更好的表现。(3)本文构建了一个开放域中文机器阅读理解系统,能从大规模非结构化的文本中寻找任意领域问题的答案。系统结合信息检索与机器阅读理解技术从文档数据库和互联网中寻找问题的答案,能得到实时的、较准确的答案。基于知识图谱的问答需要大规模的知识图谱,基于检索的问答需要大量的问答对,基于生成的问答回复不准确和丰富,而基于机器阅读理解的问答系统不需要大规模结构化的文本,就能得到较为准确的答案。
基于知识推理的不完整问题语义修复方法
这是一篇关于知识图谱,语义修复,自然语言推理,时间感知推荐的论文, 主要内容为语义修复即针对不完整问题本身进行语义建模,根据外部知识推理出缺失的语义信息,最后呈现一个语义完整的问题。目前在研究的自然语言推理任务场景中比如基于知识库的问答系统,问题生成,对话系统等等,大多关注的是一个候选句子的解析方法,检索查询方法,这些前提都是问题本身的语义是完整的,正确的,否则就会随机推荐出一个或者几个答案。甚至直接解析失败无法识别。不完整问题在生成答案的时候会有歧义,与提问人的思想不统一,生成答案的准确度较低。用户提出的问题是广泛而复杂,场景多样,如何正确的捕捉用户的意图,怎么定义一个问题是完整的,以及不完整的问题应该如何补全是本文面临的挑战。第一,本文对问题进行了概括与抽象,构建了一套通用的自然语言问题表示框架,基于句法关系以及How Net构建语义树结构来实现对问题的建模。解决了问题表示形式多种多样的问题。第二,针对语义树缺失的成分,开发了一套基于时间依赖以及知识图谱的推理方法,该方法可以动态调整推荐窗口词并且可以根据常规记忆习惯的方式补全用户语义,解决了不完整问题信息较少,难以捕捉额外语义的问题。第三,本文设计了一个基于词性位置以及N-gram算法的问题筛选模型,从而推理出概率最大的句子,解决了句法不连贯的问题。第四,本文贡献了一个基于知识图谱的自动问答系统,该系统准确率高,在特定领域效果更好,同时集成了上述语义修复算法,证明了模型算法的落地实践性。综上所述,在自然语言推理方面,文本贡献了一种新的研究思路。实验表明本文工作对自然语言推理子任务有很好的效果。
融合知识图谱的自然语言推理算法研究
这是一篇关于自然语言推理,文本蕴含识别,知识图谱,胶囊网络,外部知识信息的论文, 主要内容为自然语言推理的主要任务是在给定前提和假设文本的情况下,让机器推理出前提和假设之间存在的蕴含关系,是自然语言处理领域里一项基础且重要的研究,有着广泛的应用前景。知识图谱的引入为自然语言推理模型提升了泛化能力,然而现有融合知识图谱的推理方法没有考虑知识子图构建过程中的噪声问题;传统图神经网络对知识子图进行编码会造成部分结构化知识信息的丢失,影响最终模型的准确率。针对以上问题,本文首先从连接前提和假设之间的路径信息考虑,提出优选路径的子图构建策略,然后构建基于胶囊的图编码网络对提取到的知识子图进行编码以最大程度地保留子图中的知识信息,本文所做的主要研究工作和创新点如下:1、针对子图构建过程中的噪声问题,提出优选路径的子图构建策略。结合权重信息和路径长度信息进行知识子图过滤,从而减少图中未匹配实体的数量,增加子图的上下文相关度,同时为了更进一步获取子图中的知识信息,对前提和假设构成的子图进行编码,将得到的定长向量融入基于文本的推理模型做训练,从而构建出文本与图联合训练的推理模型。2、针对传统图神经网络编码子图造成的信息丢失问题,本文提出融合胶囊网络的知识增强型自然语言推理模型(Caps-KGEIM),通过胶囊单元,将图卷积神经网络输出的标量形式特征转化为向量形式以更好地保留图中的结构化知识信息,使文本向量和图向量相融合做训练,为基于文本的推理模型丰富了外部知识信息。3、使用neo4j做知识图数据的管理,配合Pytorch深度学习框架搭建神经网络模型,分别在CNLI和RITE数据集下对模型性能做相关实验,结果表明本文的子图构建方法相比固定跳数的方法能够得到更加纯净的知识子图,和多个经典基线模型对比,本文提出的模型均有不同程度的识别准确率提升。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码港湾 ,原文地址:https://bishedaima.com/lunwen/56293.html