8篇关于实体关系联合抽取的计算机毕业论文

今天分享的是关于实体关系联合抽取的8篇计算机毕业论文范文, 如果你的论文涉及到实体关系联合抽取等主题,本文能够帮助到你

中国鸟类领域知识图谱构建与应用研究

这是一篇关于知识图谱,本体,深度学习,实体关系联合抽取,智能服务的论文, 主要内容为针对互联网中的文本存在数据量大、复杂异构、关联性差等问题,知识图谱可为鸟类领域的信息数字化研究提供一种全新的思路,利用知识图谱来提供便捷的知识服务。通用知识图谱对鸟类领域而言存在知识深度较浅等问题,可通过构建鸟类知识图谱来融合与组织碎片化文本,以较小的代价将异构信息转换为结构化信息,实现领域知识的统一组织与表示。本体可有效组织与表示鸟类知识中的概念、属性、关系等,因此本文基于鸟类领域本体来构建BKG4DK(面向领域知识的鸟类知识图谱,Bird Knowledge Graph for Domain Knowledge),并设计针对非结构化文本的基于深度学习的知识抽取模型,实现BKG4DK的内容扩充。最后开展基于中国鸟类领域知识图谱的智能服务研究,来满足用户的知识一体化需求。本文主要工作有以下几个方面:(1)中国鸟类领域本体构建。本体可概括性表示领域知识中的概念、属性、关系等,确定本体构建目标后采用七步法进行本体建模,主要包含确定本体领域范围和梳理核心概念集与属性集。在本体建模基础上,使用(?)本体构建工具完成本体构建。最后根据本体与知识图谱存在的关系将本体映射到知识图谱中,实现BKG4DK基本内容填充。同时,鸟类本体可为后文知识图谱智能服务中的知识推理服务提供帮助。(2)针对非结构化的鸟类文本,设计基于深度学习的知识抽取方式,通过实体关系联合抽取方式来获取三元组信息,扩充BKG4DK的规模。针对传统标注方式存在的问题并结合语料特征,提出与文本特征相适应的ME+R+SOBIE标注方法,同时标记句中的实体与关系,提升标注效率与效果。在此基础上构建Bird-Data语料库,融合BERT、Bi LSTM、CRF模型来训练鸟类实体识别与实体关系抽取模型,自动抽取文本中的实体与关系。为验证模型实际表现,采用不同模型来进行对比实验,实验结果表明该模型效果优于其他经典模型。(3)确定鸟类领域知识服务需求后,开展基于中国鸟类知识图谱的智能服务研究,其中有基于BKG4DK的知识管理服务、知识查询服务、知识推理服务,实现知识图谱的垂直应用。其中,基于BKG4DK的知识管理通过知识获取与知识存储来实现知识的获取与存储应用;知识查询基于Neo4j图数据库实现知识检索与关系查询应用,并设计知识问答模型来实现简单问题的智能问答;知识推理通过自定义知识推理规则,从知识图谱中已有实体与关系推理得到新知识,实现鸟类知识推理应用。

基于实体关系联合抽取的领域知识图谱构建与应用

这是一篇关于领域知识图谱,实体关系联合抽取,主动学习,序列标注,门控循环单元的论文, 主要内容为随着知识图谱(Knowledge Graph,KG)相关技术的快速发展,领域KG已经成为学界和业界关注的重点。与传统的领域数据管理方法相比,领域KG作为结构化的语义知识库,能够帮助人们有效地获取知识之间的逻辑关系,从而为智能问答、搜索引擎和决策支持等领域应用提供数据支撑。因此,高效的领域KG构建,对领域知识的有效管理、直观展示等具有重要意义。由于领域KG的适用范围较小且更加注重知识的准确度和深度,相较于通用KG拥有的大规模知识,领域KG的构建仍然存在缺乏标注语料等问题。因此,如何以尽可能少的标注语料实现领域KG的构建,是本文研究的关键问题。此外,实体关系的联合抽取,作为领域KG构建过程中的关键环节,现有的模型无法有效抽取领域文本数据中的实体和实体间的重叠关系。因此,如何有效地抽取领域文本数据中实体和实体间的重叠关系,是本文需要解决的另一关键问题。对此,本文提出一种融合主动学习思想的实体关系联合抽取方法,基于抽取的三元组构建领域KG,并将其应用到少数民族独龙族领域。本文的研究工作概括如下:(1)针对领域标注语料缺乏的问题,提出一种基于主动学习的待标注数据采样方法,通过综合评估样本价值和样本相似性选取待标注样本,实验结果表明,本文所提出的待标注数据采样方法能够有效降低标注成本。(2)针对领域文本数据存在的重叠关系问题,提出一种基于BERT-Bi GRU*-CRF的实体关系联合抽取模型,用于对领域文本的实体和关系同时进行抽取。其次,建立在NYT公开数据集和少数民族领域真实数据集之上的实验结果表明,相比于其他现有模型,本文所提出的方法能够更加准确地识别出文本中的实体和关系。(3)本文以独龙族文化领域知识为例,基于本文所提出的领域KG构建方法,设计并开发独龙族文化KG构建与语义问答系统,实现了独龙族文化KG构建、KG可视化查询、独龙族文化领域知识问答等功能。

面向医保智能审核的知识图谱构建方法研究

这是一篇关于医疗保险,知识图谱,实体识别,实体关系联合抽取,智能审核的论文, 主要内容为医疗保险是社会保险的重要组成部分,对于人民而言有着重要的意义。医保制度的实施离不开医疗保障基金的支持,但是受我国医保基金监管制度不健全、监管信息化程度不高等因素制约,我国存在着很多医保基金欺诈行为,基金监管面临着很大挑战。国家对此高度重视,提出要提高医保监控能力,全面建立智能监管体系,积极探索“互联网+”新模式,实现医保基金监管向专业化、信息化、智能化方向转变。实现医保智能审核系统需要建立医疗领域相关的知识库,由于知识图谱可以高效地查询关联数据,适合于数据量较大且数据之间联系较多的情况,因此本论文采用知识图谱来建立知识库。知识图谱由三元组组成,三元组抽取可以分为命名实体识别任务和关系抽取任务。在实体识别任务中,本论文基于LSTM模型可能会遗忘掉与当前信息产生关联的历史信息的缺点,提出了改进模型RFLSTM,在旧信息被遗忘前先与新信息融合后再经过遗忘门,结合注意力机制和预训练语言模型BERT,提出BERT+Bi RFLSTM+CRF模型。在关系抽取任务中,本论文为了避免流水线模型中误差累积、关系重叠等问题,采用了实体关系联合抽取方案,为了不仅能识别出实体和关系,同时还能够识别出实体类型,本论文提出了多层指针标注策略,并在此标注策略基础上进一步提出实体关系联合抽取模型MLPER,此外本论文在模型的向量拼接层中加入了共享编码层、头实体向量、头实体类型向量、相对尾实体向量、相对尾实体类型向量和每个词与头实体的相对位置向量,使得模型可以获取到更多的信息。本论文分别在通用领域数据集和医疗领域数据集上进行了实验验证,实验结果表明提出的RFLSTM模型和MLPER模型在性能方面有所提高。最后,以国家处方集和医保药品目录等为数据源,应用MLPER模型构建了医保审核知识图谱,并基于构建的知识图谱进行了医保数据审核,结果表明本论文所提出的医保智能审核知识图谱构建方法可行有效。

航空器适航审定知识图谱构建关键问题研究

这是一篇关于航空器适航审定,知识图谱构建,实体识别,实体关系联合抽取的论文, 主要内容为随着我国民用航空工业的高速发展,新产品、新技术不断涌现,适航审定需求正在迅速增大。知识图谱是谷歌公司于2012年所提出的概念,计算机能够通过知识图谱将现实世界的概念、实体进行映射,并掌握概念、实体间的语义关系,实现智能问答、语义搜索和个性化推荐。航空器适航审定知识图谱的构建能够为适航审定领域智能化工具软件的研发提供数据基础,从而提高适航法律规章、行业标准文件和适航证件等信息的查询效率以及取证效率,对提高我国适航审定能力具有重要意义。因此,本文在所收集的适航语料和现有研究的基础上,构建了适航审定实体识别和适航审定实体关系抽取数据集,并对航空器适航审定知识图谱构建关键问题进行了研究,具体包括适航审定实体识别和适航审定实体关系抽取。针对航空器适航审定实体识别问题,将双向门控循环网络(Bi GRU)与标签注意力网络(LAN)相结合,提出了基于Bi GRU-LAN的适航审定实体识别方法。该方法将适航语料嵌入为字符向量,采用双层Bi GRU网络提取双向字符序列特征和建模标签间的相互关系,使用中间层LAN网络进行注意力运算调整标签嵌入向量,根据推理层LAN网络注意力权重结果得到最优标签。该方法能够有效地实现端到端的适航领域实体识别,在所构建的适航审定实体识别数据集上F1值达到了81.68%,同时能够避免人工特征模板的构建和对自然语言处理工具的依赖,并且对比实验表明本方法的训练推理效率相比采用传统条件随机场(CRF)推理层的识别方法更加高效。针对航空器适航审定实体关系抽取问题,在所提出的适航审定实体识别方法基础上,提出了基于BERT-Bi GRU-LAN的适航审定实体关系联合抽取方法。该方法将实体关系联合抽取过程分解为头实体和关系尾实体两个互相关联的抽取过程,并转换为序列标注形式进行实体关系的联合抽取。使用预训练字符BERT编码器嵌入文本,采用Bi GRU网络提取字符双向序列特征,通过两个Bi GRU-LAN网络分别预测头实体和与头实体相关的关系尾实体序列,最后根据头实体、关系尾实体序列抽取出三元组。在适航审定实体关系抽取数据集上,F1值达到了85.60%。抽取实验结果表明,所提出的方法能够有效抽取出适航审定三元组,并且多头LAN网络能够解决两种关系重叠问题,相比使用随机初始化字符向量表的方法,本方法能够借助先验知识缓解适航审定实体关系抽取数据集规模不足的问题,进一步提高适航审定实体关系的抽取效果。本文所提出的适航审定实体识别方法和适航审定实体关系联合抽取方法可为适航审定知识图谱的构建提供数据基础和方法支撑,并且所提出的适航审定实体识别方法可应用于适航领域的问答系统和语义检索。

基于文本的实体关系抽取以及知识图谱的表示推理方法研究

这是一篇关于知识图谱,实体关系推理,实体关系联合抽取,嵌入方法的论文, 主要内容为随着信息通信技术特别是移动互联网的快速发展,人类逐渐进入数据大爆炸的时代,每天都会有海量的数据和知识产生。面对海量的数据,用户如何快速高效地获得有用的知识,成为了这个时代热门的课题和棘手的难题。把海量的无结构化文本数据以知识图谱的形式存储表征,成为现在一种主流的知识存储方式。在这一过程中从文本中抽取实体和关系以及已有知识图谱的推理和表示成为了知识图谱能够更好应用于具体领域的关键技术,因此本文的研究内容如下:1、针对现有实体关系联合抽取方法,底层语义编码过于简单,不能充分表征上下文语义的问题。本文通过在底层编码阶段加入多头注意力机制,同时把不同编码层训练出的语义表征拼接,从而在编码层实现更加丰富的语义表示,最终达到提升上层解码阶段的实体关系识别的效果。2、知识图谱中表示学习方法主要是以TransE方法为代表的翻译方法,它是把实体关系映射到低维连续的张量空间中,但是现有的翻译方法不能准确地表征复杂关系的三元组,比如一对多,多对一,多对多关系。针对基线方法局限性,提出了一种基于嵌入非对称的知识表示推理方法(AEM)。本文提出的AEM方法把头实体和尾实体映射到同一关系空间中的不同的子空间中,可以在极大程度上缓解复杂关系的表示问题,同时易训练、易使用。3、针对本文提出的基于嵌入非对称的知识表示推理方法(AEM)不能弹性的表征三元组的实体关系的问题,本文结合OrbitE方法,提出了基于流形的非对称嵌入知识表示推理方法(MAKR)。MAKR方法把通过对应关系空间映射的尾实体嵌入到关系超维流形球面上,而不是关系空间中的一个点上,可以在很大程度上缓解复杂关系中实体表征不严谨的问题。本文对MAKR方法在公开数据集上进行了训练和测试。实验结果和基线方法相比,获得了明显的提升,从而证明了本文提出的MAKR方法有效性。上述研究内容涵盖了知识图谱中的两大子任务:实体关系联合抽取和知识图谱表示和推理。本文基于两大子任务中现有方法存在的不足,提出的改进方法在获得了更好的提升效果,对知识图谱领域的技术进步具有一定的借鉴意义。

基于深度学习的实体关系联合抽取方法研究

这是一篇关于实体关系联合抽取,交互注意力机制,多元关系,字词混合编码,对抗训练的论文, 主要内容为随着信息时代的到来,在互联网上会产生越来越多的非结构化文本信息,在文本信息中隐藏着许多有价值的数据,为了从中获取这些重要数据,需要信息抽取技术的帮助。信息抽取可以从海量数据中抽取出结构化的信息,实体关系抽取是信息抽取的主要任务之一,是构建知识图谱、自动问答等自然语言处理任务的基础。因此,实体关系抽取具有重要的研究意义。传统流水线方法存在错误传播和不能有效抽取关系重叠的问题,会导致实体关系抽取模型总体精度不高。并且在现实世界中,文本通常是具有多元关系的,然而大多数现有的方法仅考虑了实体之间的二元关系,不能有效地处理多元关系。针对上述存在的问题,本文结合深度学习技术对实体关系联合抽取方法展开研究,具体工作内容如下:(1)针对传统流水线方法容易产生错误传播,忽略了两个子任务的内在联系和抽取重叠关系效果较差等问题,提出一种基于交互注意力与特征融合的实体关系联合抽取模型IBFMRel。为解决重叠三元组的问题,该模型采用多层指针网络标注方案,将实体关系联合抽取任务转化为两个相互关联的子任务。同时,设计一种交互注意力机制来实现头实体的语义特征和句子序列特征的融合;为了进一步丰富文本特征信息,将句子的浅层特征和深层特征进行融合;使用Bi LSTM有效地提取上下文相关的语义特征。将所提模型应用于NYT24和NYT29数据集,实验结果表明,所提模型抽取效果与主流方法相比性能有所提升。(2)针对现有方法不能有效处理多元关系,且汉语单字存在着歧义性和传统实体关系抽取模型鲁棒性差等问题,提出一种多元关系分解算法,将多元关系任务分解为多个二元关系任务进行抽取。在第3章模型IBFMRel的基础上,进一步提出实体关系联合抽取模型CA-IBFMRel,采用字向量和词向量的混合编码方式,以学习更加丰富的文本特征表示,通过对抗训练以提高模型的泛化能力。最后,将所提模型应用于Du IE2.0数据集,实验结果表明,无论二元关系抽取还是多元关系的抽取,均取得较好的实验效果。(3)为直观展示本文研究成果并便于将研究成果用于实践,基于IBFMRel和CAIBFMRel模型,结合前后端开发技术,设计并开发基于深度学习的实体及关系抽取系统。该系统能够抽取用户输入文本中的实体,并以关系图的方式展示文本中包含的关系,为用户提供了一个友好的、可交互的、可视化的实体关系联合抽取原型系统。

基于深度学习的金融领域中文实体关系联合抽取算法研究

这是一篇关于金融领域,实体关系联合抽取,重叠三元组,指针标注,对抗训练,FinBERT的论文, 主要内容为在当今信息化时代,金融领域的各类金融交易和活动每天都会产生海量的信息资源。如何快速而准确地从海量的数据中获取有用的知识成为金融领域信息智能处理研究的一个难点。利用实体关系抽取方法可以自动高效地从这些非结构化的金融信息中抽取三元组,为构建金融领域知识图谱提供数据支持。实体关系抽取可以分为流水线方法和实体关系联合抽取方法。流水线方法把实体关系抽取分为两个独立的任务,因此会导致任务之间缺乏关联、错误传播以及信息冗余等问题。而实体关系联合抽取方法可以在一个统一的模型中同时处理实体和关系,克服流水线方法存在的缺点,成为主流学习方法。本文针对金融领域实体关系联合抽取技术进行深入研究,主要研究内容如下:(1)针对重叠三元组问题,本文提出融合FGM(Fast Gradient Method)和指针标注的实体关系联合抽取模型BERT-FGM。该模型以BERT(Bidirectional Encoder Representations from Transformers)模型为基础,通过使用一种新的指针标注策略将实体对上的关系建模为函数,有效地解决重叠三元组问题。此外,通过在BERT模型训练词向量的过程中融入FGM对抗训练算法提高模型的泛化性能。在公共数据集Web NLG和NYT与其他实体关系联合抽取模型进行对比实验,本文提出的BERT-FGM模型的F1值达到90.7%和88.3%,有效地解决三元组重叠问题。(2)针对中文BERT模型未对金融领域优化和以字为粒度切分的缺点,本文基于金融领域预训练模型Fin BERT(BERT for Financial Text Mining)对BERT-FGM模型优化得到Fin BERT-FGM模型。该模型使用全词MASK技术对金融领域的语料库和词汇表进行预训练,学习金融领域的先验知识,克服BERT模型在中文金融文本识别不佳的缺点。在本文构建的金融关系三元组数据集上的对比实验中,Fin BERT-FGM模型相比于BERT-FGM模型在准确率和召回率上分别提升了2.8%和3.4%。使用Python设计并开发一款基于Fin BERT-FGM模型的金融领域关系三元组抽取软件,实现识别结果的可视化及保存识别结果的功能。