热点事件图谱构建及分析预测
这是一篇关于情感分析,知识图谱构建,图神经网络,依存树,云计算的论文, 主要内容为随着国际形势的不断变化和信息技术的快速发展,传统的事件认知方法无法较好的适应大数据时代认知域对抗的新要求。为了应对新形势下思想领域斗争的变化,适应军事领域全域联合对抗需求,迫切的需要加强对信息的利用,从海量信息中提取关键信息。针对传统认知分析方法数据量不足、分析不及时、分析效率低等问题,本文提出了基于机器学习的知识图谱构建技术和基于人工智能的情感分析预测模型,并在此基础上设计实现了基于云计算技术的知识图谱构建及分析预测原型系统。本文的主要贡献和创新点包括以下几个方面:1.提出了基于距离的方面依存树模型。针对传统依存树在细粒度情感分析中存在的问题,本文在传统依存树的基础上提出了一种基于方面的依存树模型,该模型可以较好的应用在细粒度情感分析中。该模型的主要创新点包括(1)相比于传统依存树,方面依存树可以更直观的展现核心词以及单词与核心词之间的关系;(2)本文进行了详细的实验分析,实验结果表明在预测中使用方面依存树具有更高的准确率;(3)在方面依存树中引入距离,可以删除与核心词联系较少的词语,有助于提高知识图谱构建和分析预测的效率和准确性。2.提出了基于图神经网络的混合语义分析预测模型。针对文本情感分析预测任务中准确率不够的问题,本文在传统图神经网络的基础上提出了一种基于图神经网络的混合语义关系分析模型。主要创新点包括:(1)该模型可以处理包括上下文信息和语义依存关系信息在内的混合信息。(2)进行了详细的准确率实验,结果表明我们的方案具有较高的准确率。3.设计实现了基于云计算技术的知识图谱构建及分析预测演示原型系统。针对当前知识图谱构建及分析预测系统存在的预测准确度不够高,资源利用率不足等问题。本文基于云计算技术设计并实现了知识图谱构建及分析预测原型系统。主要创新点包括(1)以Open Stack云管理平台为基础构建系统,通过云计算技术可以明显提高计算效率和计算资源的利用率。(2)我们在云计算平台上对依存关系抽取、知识图谱构建、情感分析等功能模块进行集成,形成了知识图谱构建及分析预测演示原型系统。
基于GCN技术的知识图谱中实体关系抽取的研究与实现
这是一篇关于命名实体识别,关系抽取,图卷积神经网络,依存树,机械工业的论文, 主要内容为随着科技的发展,移动终端与智能设备越来越多,万物互联成为了可能,由互联所引起的爆发式的数据增长使得虚拟空间中的数据量越来越庞大。针对于机械工业领域,各式各样的原料、元件、加工工艺、技术性能、国家标准等数据更为复杂多样,如何协助相关领域工作人员从这些数据里精准高效地找出目标数据以及与其有关系的数据就更为重要,这对数据搜索等相关技术的要求也日渐提高,知识图谱技术应运而生。知识图谱可以有效地处理现实世界中存在的大量数据,从中抽取出实体以及其中蕴含的关系,作为知识保存在数据库中,从而便于对这些数据进行多种的操作。并且知识图谱中的逻辑非常符合人的思维方式,针对具体的某一项任务,只要有关系分析的需求,知识图谱就很可能派上用场。关系抽取任务作为知识图谱构建任务的基石之一,是必不可少的一个步骤,而精确且完善的关系抽取效果,对于提升知识图谱以及基于知识图谱的系统工具的性能来说非常关键。目前存在的关系抽取技术中,基于监督学习的方法可以利用高质量的有标记数据学习一个关系抽取模型,然而高质量的标记数据获取难度高且对人力物力有极大的需求。在机械工业领域,只是一种型号的工件就可以存在着多种的参数,例如其原料、用途、技术指标、加工工艺等等,且随着时间的发展,工件品种也在一直开发中,而这样的工件在机械工业中的数量浩如烟海,对每一个单独的工件都进行标注,工作量极其巨大。在基于无监督学习的关系抽取方法中,则是利用深度学习的技术,从大量未标记的数据中学习出关系抽取模型。但在实际使用的过程中,由于需要使用命名实体识别器,而命名识别器本身就有一定的误差,会导致预期性能出现下降。机械工业领域由于其行业特殊性,对数据的全面性和精确性有着更高的要求。同时,关系之间存在着相互的影响,有一些实体对中有着不止一种关系,而这种相互作用在知识库中非常常见。例如在机械工业领域中,“合金钢”与“铣刀”之间,合金钢既能用来制造铣刀,铣刀又可以用来加工合金钢,但现有方法很少对这一问题进行处理。针对以上问题,本文提出以下的研究内容。(1)为确保关系抽取结果的准确性和全面性,提出一种基于LSTM与GCN技术的端到端的关系抽取方法。端到端的模型可以同时完成实体识别任务以及关系抽取任务,从而避免误差传播问题的产生。另外,采用LSTM+GCN的方法,可以从输入的语料中抽取出尽可能丰富的特征,当用于关系分类任务时,可以得到尽可能丰富且准确的关系分类结果,为后续任务提供可靠的基础。(2)为了处理重叠实体的情况,并对关系间的相互作用、关系与实体间的相互作用加以考虑,采用关系加权图及GCN对模型加以改进。通过GCN抽取出关系加权图中蕴含着的综合词特征,并且通对实体损失函数关系损失函数的辅助,从而实现更精准且考虑更充分的关系抽取结果。传统的大量方法未对出现实体重叠和相互产生影响的关系进行处理,正确率会受到一定的负面影响。经过改进后的模型,可以对机械工业领域中存在的非常多的实体重叠关系加以处理,从而实现更佳的关系抽取效果。(3)基于以上研究内容,本文实现了一个面向机械工业领域的实体关系联合抽取系统。目前机械工业领域仍然较为依赖传统的技术手册等工具,这些工具更新速度慢、效率低下,完成一组数据的查询后需要换其他工具查询另一组数据,不便于发现各项数据指标间的关系。通过本系统的开发,可以协助相关机械工业领域工作人员高效且精准地完成元件筛选、工艺制定、原料采购及生产维护等工作。
基于依存树和深度学习的方面级情感分类研究
这是一篇关于方面级情感分类,依存树,深度学习,图神经网络,注意力机制的论文, 主要内容为方面级情感分类是文本情感分析领域下的一个细粒度的子任务,其目的是预测句子中每个方面实体的情感极性。随着互联网的发展,各种类型的社交平台和电商平台占据了人们日常生活的每一个角落,人们在各类平台上所发布的海量的带有情感倾向的文本信息给科研和商业领域带来了巨大的研究价值。通过利用这些文本信息,不仅可以监控舆情导向、预测用户喜好,还可以进一步促进人类对于人脑情感认知系统的理解。然而如何结合实际问题高效地利用这些情感信息一直是研究的难点和重点。近年来,得益于深度学习技术的快速发展,自然语言处理的各个研究领域都取得了长足的进步。同样地,方面级情感分类领域近年来也取得了喜人的研究成果。但是现有的方案没有充分考虑到句子的结构信息,在处理包含多个方面词和情感词的句子时模型往往会产生困惑、关注不到与方面词相关的情感词,从而做出错误的情感极性预测。因此,本文针对这一缺陷,提出了将依存树中的句子结构信息与深度学习技术相融合的方法以实现更准确的方面词情感极性预测。本文的主要工作和贡献如下:1.提出了一种注意力增强的图卷积网络(Attention-Enhanced Graph Convolutional Network,AEGCN)。该模型主要解决传统图卷积网络(Graph Convolutional Network,GCN)中的噪声信息问题。AEGCN利用注意力机制计算依存树中相邻节点之间的相关性,使得依存树中的每个节点在更新时可以为与它相邻的各个节点分配不同的关注度,进而区分出各相邻节点的重要性程度,减少噪声信息的传播。此外,该模型还采用了多头注意力机制,通过语义信息和结构信息的交互进一步提升模型的鲁棒性。最后,在五个公共的英文方面级情感分类数据集上的实验结果表明,AEGCN模型通过减少噪声信息有效地提高了分类的准确性,并进一步提升了传统GCN的性能。2.提出了一种三重标签网络(Triple Tag Network,TTN),它由两部分组成,一部分是词性-距离网络,另一部分是关系图注意力网络。该模型主要探索了标签信息对于方面级情感分类任务的影响。依存树中除了包含单词间的邻接关系信息外,还包括词性及依存关系信息。在该模型中,词性-距离网络利用词性标签以及额外添加的距离标签判断各单词节点的重要性程度;关系图注意力网络则是将依存关系标签与图注意力网络相结合,通过依存关系标签计算相邻节点的相关性。最后,在三种类型的标签信息的指导下,将两部分网络捕捉到的特征信息拼接后作为模型最终用于分类预测的特征表示。在三个公共数据集上的实验结果证明了TTN在方面级情感分类任务中的有效性,并且表明了依存树中的词性、距离以及依存关系信息可以作为方面级情感分类任务的指导信息,对情感极性的预测起到了积极的作用。3.提出了一个动态残差图注意力网络(Dynamic Residual Graph Attention Network,DRGAT)。该模型主要解决现有的基于图神经网络和依存树的方法在更新节点信息时所存在的信息丢失和噪声信息的问题。首先在传统图注意力网络(Graph Attention Network,GAT)中引入残差机制,将GAT的输入和输出进行加和归一化,以克服在网络传播过程中原始节点信息丢失的问题。其次为解决噪声信息问题,该模型将四种类型的标签信息同时引入到GAT中,并在传统GAT的基础上实现了动态地规划各类型标签信息的关注度。此外,本方案中还提出了依存树重塑的方法,通过修剪掉在依存树中与方面词距离较远的节点的方式,在另一个角度缓解噪声信息的问题。最后,在三个公共数据集上的实验结果表明DRGAT可以有效地解决信息丢失的问题并在一定程度上缓解噪声信息的问题,同时它还进一步提升了GAT的性能。
生成式自动文本摘要方法研究
这是一篇关于生成式文本摘要,图注意力网络,实体关系,依存树,深度学习的论文, 主要内容为技术是指利用计算机从文章中提取一句话(或一段话),以概括原文意思,有效地提炼原文有用信息的技术。该技术可以帮助人们在当下的信息爆炸时代更好地从互联网获取有效信息,提高工作效率。与传统的抽取式自动文本摘要技术不同,生成式自动文本摘要技术更接近人的思想,更具有研究价值。得益于深度学习技术的发展,生成式自动文本摘要技术成为了新的研究趋势,并取得了一系列新的进展与成果。尽管生成式自动文摘技术已取得令人瞩目的成绩,但它仍存在两个主要的问题有待解决,第一,事实一致性问题,是指生成式文本摘要文本的描述中,出现与原文事实不符的现象。第二,受限于文字的长距离依赖问题,生成式自动文本摘要模型对于长文本的处理还没有较好的解决方案。本文设计了两种深度神经网络模型,分别研究文本的结构化信息对事实一致性问题的解决是否有帮助,以及依存树是否能帮助模型学习文字的长距离依赖关系。具体如下:(1)基于实体关系的生成式文本摘要指针生成网络。该模型首先对原文档中的实体关系进行抽取,然后使用信息丰富型实体关系选择算法选出包含信息量最多的实体关系三元组,并将三元组构建原文的实体关系知识图谱,接着使用基于实体关系的图注意力神经网络学习实体关系知识图谱的特征,同时使用实体关系注意力方法对原有的注意力机制进行增强,增加文本中实体分词被选中输出的概率。(2)基于依存树的图注意力Transformer网络。该模型在经典的Transformer模型上进行了改进,使用了图注意力神经网络以学习文本句子中的语法结构和分词之间的长距离依赖关系。本文在多个英文和中文数据集上对模型的有效性进行了验证,并对模型中的各个模块进行了消融实验,实验结果表明,使用图神经网络学习文本中的结构化信息特征,可以有效地提高生成式自动文本摘要模型的性能。
基于GCN技术的知识图谱中实体关系抽取的研究与实现
这是一篇关于命名实体识别,关系抽取,图卷积神经网络,依存树,机械工业的论文, 主要内容为随着科技的发展,移动终端与智能设备越来越多,万物互联成为了可能,由互联所引起的爆发式的数据增长使得虚拟空间中的数据量越来越庞大。针对于机械工业领域,各式各样的原料、元件、加工工艺、技术性能、国家标准等数据更为复杂多样,如何协助相关领域工作人员从这些数据里精准高效地找出目标数据以及与其有关系的数据就更为重要,这对数据搜索等相关技术的要求也日渐提高,知识图谱技术应运而生。知识图谱可以有效地处理现实世界中存在的大量数据,从中抽取出实体以及其中蕴含的关系,作为知识保存在数据库中,从而便于对这些数据进行多种的操作。并且知识图谱中的逻辑非常符合人的思维方式,针对具体的某一项任务,只要有关系分析的需求,知识图谱就很可能派上用场。关系抽取任务作为知识图谱构建任务的基石之一,是必不可少的一个步骤,而精确且完善的关系抽取效果,对于提升知识图谱以及基于知识图谱的系统工具的性能来说非常关键。目前存在的关系抽取技术中,基于监督学习的方法可以利用高质量的有标记数据学习一个关系抽取模型,然而高质量的标记数据获取难度高且对人力物力有极大的需求。在机械工业领域,只是一种型号的工件就可以存在着多种的参数,例如其原料、用途、技术指标、加工工艺等等,且随着时间的发展,工件品种也在一直开发中,而这样的工件在机械工业中的数量浩如烟海,对每一个单独的工件都进行标注,工作量极其巨大。在基于无监督学习的关系抽取方法中,则是利用深度学习的技术,从大量未标记的数据中学习出关系抽取模型。但在实际使用的过程中,由于需要使用命名实体识别器,而命名识别器本身就有一定的误差,会导致预期性能出现下降。机械工业领域由于其行业特殊性,对数据的全面性和精确性有着更高的要求。同时,关系之间存在着相互的影响,有一些实体对中有着不止一种关系,而这种相互作用在知识库中非常常见。例如在机械工业领域中,“合金钢”与“铣刀”之间,合金钢既能用来制造铣刀,铣刀又可以用来加工合金钢,但现有方法很少对这一问题进行处理。针对以上问题,本文提出以下的研究内容。(1)为确保关系抽取结果的准确性和全面性,提出一种基于LSTM与GCN技术的端到端的关系抽取方法。端到端的模型可以同时完成实体识别任务以及关系抽取任务,从而避免误差传播问题的产生。另外,采用LSTM+GCN的方法,可以从输入的语料中抽取出尽可能丰富的特征,当用于关系分类任务时,可以得到尽可能丰富且准确的关系分类结果,为后续任务提供可靠的基础。(2)为了处理重叠实体的情况,并对关系间的相互作用、关系与实体间的相互作用加以考虑,采用关系加权图及GCN对模型加以改进。通过GCN抽取出关系加权图中蕴含着的综合词特征,并且通对实体损失函数关系损失函数的辅助,从而实现更精准且考虑更充分的关系抽取结果。传统的大量方法未对出现实体重叠和相互产生影响的关系进行处理,正确率会受到一定的负面影响。经过改进后的模型,可以对机械工业领域中存在的非常多的实体重叠关系加以处理,从而实现更佳的关系抽取效果。(3)基于以上研究内容,本文实现了一个面向机械工业领域的实体关系联合抽取系统。目前机械工业领域仍然较为依赖传统的技术手册等工具,这些工具更新速度慢、效率低下,完成一组数据的查询后需要换其他工具查询另一组数据,不便于发现各项数据指标间的关系。通过本系统的开发,可以协助相关机械工业领域工作人员高效且精准地完成元件筛选、工艺制定、原料采购及生产维护等工作。
基于图卷积神经网络的联合实体关系抽取方法研究
这是一篇关于联合实体关系抽取,图卷积神经网络,依存树,注意力的论文, 主要内容为无结构化文本中蕴含丰富的命名实体以及关系信息,如何快速且准确地从文本中抽取这些语义信息是自然语言处理领域的基础任务,可以为知识图谱构建、信息检索等下游任务提供数据支撑。联合实体关系抽取旨在从文本中同时抽取所蕴含的实体关系三元组,因其较好解决了流水线框架存在的错误传播和忽视任务依赖问题,已受到研究人员广泛关注。目前联合实体关系抽取研究主要存在以下挑战:(1)长距离实体关系难以识别。由于梯度消失等问题,长距离实体之间的关系难以获取。(2)关系方向性难以获取。在抽取关系时应正确分配第一个实体和第二个实体。(3)覆盖关系难以抽取。由于覆盖关系之间存在推理,如何利用推理信息是解决覆盖关系抽取问题的关键。针对以上挑战,本文基于图卷积神经网络提出了两种联合实体关系抽取模型,主要的工作如下:(1)针对长距离实体关系识别以及关系方向性获取的问题,提出一种基于剪枝依存树图卷积的联合实体关系抽取模型。该模型由两部分构成:序列层和图卷积神经网络层。序列层用于抽取实体;图卷积神经网络层用于抽取关系。为使模型具有获取关系方向性的能力,模型依次拼接两个实体和句子语义特征。为解决长距离实体问题,模型采用以路径为中心的剪枝策略修剪句法依存树。最后,通过在NYT数据集上进行实验验证模型有效性。(2)针对覆盖关系抽取问题,提出一种基于关系感知图卷积的联合实体关系抽取模型。该模型将联合抽取分为两个子任务:检测实体跨度以及同时识别实体关系类型。为了获取覆盖关系三元组之间的推理信息,本文提出了关系感知注意机制获得两个实体跨度之间的关系特征,并且根据实体跨度以及关系特征构建一幅全连接图。此外,为了在编码节点特征时能同时利用相邻节点特征和边信息,本文对原始图卷积神经网络进行了改进。最后,在NYT和Web NLG数据集进行的实验结果说明所提出模型的效果。
基于深度学习的知识图谱问答系统设计与实现
这是一篇关于知识图谱,问答系统,序列到序列,依存树,分层注意力的论文, 主要内容为随着互联网的普及,数据量的飞速增长使信息越来越多,人们对信息的精准度要求也越来越高。传统的搜索引擎基于关键词检索,返回的是排序后的相关文档,仍需用户手动检索出答案。区别于传统搜索引擎,问答系统能够接收自然语言问题,并返回简洁而准确的答案。面向知识图谱的问答系统是问答系统的重要分支,它能够根据知识图谱中的结构化知识回答自然语言问题。知识图谱需要特定的查询语句进行访问,由于自然语言与结构化查询难以直接对应,该映射过程成为研究中的难点。基于规则和词汇映射的解决方案需要大量人力,覆盖率较低且缺乏灵活性。传统的机器学习依赖于人工制定特征的有效性,效果仍有待提升。近年来,深度学习发展迅猛,为自然语言处理领域带来了诸多突破,其中基于神经网络的序列到序列模型被证实在序列转化任务中具有显著的效果。本文依托深度学习的序列到序列模型将问题映射为知识图谱查询语句,在此基础上本文设计并实现了基于深度学习的知识图谱问答系统。本文的系统划分为Web服务模块、问题预处理模块、问题理解模块、查询语句生成模块、答案生成模块以及系统日志与知识图谱存储模块。问题预处理模块对问题进行句法分析、实体识别等。问题理解和查询语句生成模块对序列到序列模型进行改进,用于将问题映射为查询语句。答案生成模块根据查询语句查询知识图谱获取答案信息。针对上述映射过程,本文从句法结构入手,提出了基于分层注意力机制的知识图谱问答模型(Hierarchical Attention Mechanism based Model for Question Answering over Knowledge Graph,KGQA-HAM),该模型由编码结构和解码结构组成。其中,编码结构编码问题依存树各层子树,在问题与查询语句之间建立映射关系。解码结构基于分层注意力机制提取问题实体或关系语义,将其融入神经网络中生成查询语句。本文进行了对比实验,实验结果表明,本文提出的KGQA-HAM模型显著提高了将问题映射为查询语句的准确率及问答系统的F1值。通过系统测试,本文设计实现的问答系统功能和性能均符合预期效果。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码项目助手 ,原文地址:https://bishedaima.com/lunwen/56042.html