基于深度学习的中文电子病历实体关系抽取研究
这是一篇关于电子病历,关系抽取,关系重叠,文档级关系抽取,图卷积网络的论文, 主要内容为目的:电子病历作为医院诊断治疗过程中的重要辅助工具,记录了患者从就诊到出院的全过程信息,其中包含大量的医学知识,这些数据是临床决策、医疗知识图谱、智能问诊等应用场景的数据基础。电子病历文本信息的挖掘、分析与使用对智慧医疗起到基础性支撑作用,所以面向中文病历文本的信息抽取任务成为自然语言处理领域的研究热点。关系抽取作为信息抽取的重要组成部分,已经在通用领域得到广泛的研究,尤其是当前,基于深度学习的关系抽取技术在通用领域得到广泛应用。但在中文电子病历关系抽取领域依然面临不少问题,首先,中文电子病历文本的结构与普通文本存在较大差异,不但存在大量的专业术语,而且简洁高效的书写方式也使得一句话中包含多个实体关系信息,存在实体关系重叠问题。其次,电子病历文本通常使用大段的文本来描述一个问题,比如病人的自述、病情的描述以及相应的检查及治疗方案,相比于句子级的关系抽取,电子病历文本上下文联系更强,往往对于一个事件的描述由多个句子构成,文本构成是文档级别的,如何解决文档级关系抽取也是电子病历关系抽取的一大问题。本文从电子病历文本的结构特点出发,针对性的提出解决上述问题的方案。方法及结果:针对实体关系重叠问题,本文提出一种融合实体特征的级联知识抽取模型Em-CasRel。该模型主要由三个部分组成:基于预训练语言模型的编码器模块、实体类型嵌入模块、级联解码器模块。与其他模型将关系抽取任务建模为分配给二元有序实体对上的离散标签的方法相比,本文提出的模型将任务建模为识别特定关系下主体所对应的客体,在减少冗余关系带来的噪声的同时从根本上解决关系重叠问题,而且通过实体类型的嵌入进一步缩小关系类型的范围,提高关系抽取的准确率。在公开数据集CMeIE上F1值为59.73%,提高了1.29%。并应用于人工标注数据集CaMRE,F1值为71.38%,超过其他模型。针对文档级关系抽取问题,本文提出一种双编码器的多层图卷积模型HD-GCN,该模型分为三部分:双通道编码器模块、分层图卷积模块、关系分类模块。与之前的方法相比该模型做了两点改进,首先使用两个平行编码器同时对文档进行编码,分别提取实体间的相互作用与上下文文本信息,与基于单通道或者堆栈的方式相比,既能够更完整全面表示文本特征,又可以避免网络层数过多带来的梯度问题。然后根据不同层次的语义关系构建三个图结构,对于文档中的句子、提及、实体分别构建图结构。在人工标注数据集文档级数据集CaMRE-Doc上F1值为55.93%,优于其他模型。结论:在中文电子病历关系抽取任务中,本文分别设计和提出针对实体关系重叠问题的Em-CasRel模型及针对文档级关系抽取的算法框架,实验结果均优于其他模型,具有较好的研究和应用价值。本文不仅为电子病历关系抽取任务提供了重要的技术方法,还对医疗知识图谱的构建以及智能诊断具有一定的借鉴和推动意义。
基于深度学习的中文电子病历实体关系抽取研究
这是一篇关于电子病历,关系抽取,关系重叠,文档级关系抽取,图卷积网络的论文, 主要内容为目的:电子病历作为医院诊断治疗过程中的重要辅助工具,记录了患者从就诊到出院的全过程信息,其中包含大量的医学知识,这些数据是临床决策、医疗知识图谱、智能问诊等应用场景的数据基础。电子病历文本信息的挖掘、分析与使用对智慧医疗起到基础性支撑作用,所以面向中文病历文本的信息抽取任务成为自然语言处理领域的研究热点。关系抽取作为信息抽取的重要组成部分,已经在通用领域得到广泛的研究,尤其是当前,基于深度学习的关系抽取技术在通用领域得到广泛应用。但在中文电子病历关系抽取领域依然面临不少问题,首先,中文电子病历文本的结构与普通文本存在较大差异,不但存在大量的专业术语,而且简洁高效的书写方式也使得一句话中包含多个实体关系信息,存在实体关系重叠问题。其次,电子病历文本通常使用大段的文本来描述一个问题,比如病人的自述、病情的描述以及相应的检查及治疗方案,相比于句子级的关系抽取,电子病历文本上下文联系更强,往往对于一个事件的描述由多个句子构成,文本构成是文档级别的,如何解决文档级关系抽取也是电子病历关系抽取的一大问题。本文从电子病历文本的结构特点出发,针对性的提出解决上述问题的方案。方法及结果:针对实体关系重叠问题,本文提出一种融合实体特征的级联知识抽取模型Em-CasRel。该模型主要由三个部分组成:基于预训练语言模型的编码器模块、实体类型嵌入模块、级联解码器模块。与其他模型将关系抽取任务建模为分配给二元有序实体对上的离散标签的方法相比,本文提出的模型将任务建模为识别特定关系下主体所对应的客体,在减少冗余关系带来的噪声的同时从根本上解决关系重叠问题,而且通过实体类型的嵌入进一步缩小关系类型的范围,提高关系抽取的准确率。在公开数据集CMeIE上F1值为59.73%,提高了1.29%。并应用于人工标注数据集CaMRE,F1值为71.38%,超过其他模型。针对文档级关系抽取问题,本文提出一种双编码器的多层图卷积模型HD-GCN,该模型分为三部分:双通道编码器模块、分层图卷积模块、关系分类模块。与之前的方法相比该模型做了两点改进,首先使用两个平行编码器同时对文档进行编码,分别提取实体间的相互作用与上下文文本信息,与基于单通道或者堆栈的方式相比,既能够更完整全面表示文本特征,又可以避免网络层数过多带来的梯度问题。然后根据不同层次的语义关系构建三个图结构,对于文档中的句子、提及、实体分别构建图结构。在人工标注数据集文档级数据集CaMRE-Doc上F1值为55.93%,优于其他模型。结论:在中文电子病历关系抽取任务中,本文分别设计和提出针对实体关系重叠问题的Em-CasRel模型及针对文档级关系抽取的算法框架,实验结果均优于其他模型,具有较好的研究和应用价值。本文不仅为电子病历关系抽取任务提供了重要的技术方法,还对医疗知识图谱的构建以及智能诊断具有一定的借鉴和推动意义。
基于全局到局部网络与知识注入的文档级关系抽取模型研究
这是一篇关于文档级关系抽取,图神经网络,知识蒸馏,知识图谱的论文, 主要内容为关系抽取旨在识别文本中命名实体间的语义关系,是信息抽取任务的重要组成部分,有着重要的研究和应用价值。虽然之前的工作聚焦于抽取句子内实体间的语义关系,近年来的研究将该任务上升到了文档级别,即文档级关系抽取任务,该任务需要抽取系统能够对文档内的所有实体及其提及进行复杂的推理,包括逻辑推理、共指推理、常识推理等。为了解决现有方法的局限性,本文提出了两个基于深度学习的文档级关系抽取模型:(1)相比句子级关系抽取,文档级关系抽取需要建模文档中更加丰富的语义信息,需要依靠实体的多个位于不同句子的提及来建模实体间复杂交互,但现有工作在提及信息利用上仍存在较多缺陷,因此本文提出了一种新的基于全局到局部神经网络的文档级关系抽取模型即GLRE,该模型综合利用实体的全局表示、实体的局部表示以及上下文关系表示来编码文档信息。实体全局表示对文档中所有实体的语义信息进行建模,实体局部表示针对具体实体对聚合特定实体的多个提及上下文信息,上下文关系表示利用上下文关系对文档的主题信息进行编码。实验结果表明,该模型在文档级关系抽取的两个公共数据集(Doc RED、CDR)上均取得了较好的性能,相较对比方法的最优结果其F1值分别在Doc RED、CDR上提高了3.4、5.4,其在对长距离实体对和多提及实体对的关系抽取上有较好表现。(2)文档级关系抽取需要依靠基于实体及其提及的共指推理和基于额外常识的常识推理,这两类推理的处理需要额外知识的支撑,因此本文提出了一种面向文档级关系抽取的实体驱动的知识注入模型即KIRE,该模型通过多任务学习的方式,将知识图谱和预训练共指消解模型中的知识(涉及共指三元组事实、实体的属性三元组事实和关系三元组事实)引入到现有关系抽取模型中,以此提升任务效果。针对共指三元组事实,采用基于知识蒸馏的方式将共指知识引入到关系抽取模型中。针对实体三元组事实,依次对实体的属性三元组和关系三元组进行语义编码得到基于知识图谱的实体表示,并利用融合重构的方式将学得的实体表示融入到关系抽取模型中。在Doc RED、DWIE数据集上的实验结果表明,KIRE能同时适用于基于图和基于序列的文档级关系抽取模型,并能够普遍提升抽取模型的效果,其F1指标提升幅度可以达到2.62。
实际场景下的语义关系抽取关键技术研究
这是一篇关于关系抽取,文档级关系抽取,图神经网络,实际场景,预训练语言模型的论文, 主要内容为在过去十年的人工智能浪潮中,视觉、听觉等感知智能在以深度学习为代表的人工智能技术下取得了巨大的进步,逐渐向赋予机器推理、思考等能力的认知智能推进。知识图谱作为大数据时代知识表示的重要方式,是实现以知识为中心的认知智能的重要基石。实体语义关系抽取技术是大规模知识图谱构建和运用的基础,其任务是从非结构化的文本中抽取出实体间存在的语义关系,可为构建以知识为中心的认知智能系统提供数据支撑、模型基础和核心算法。实体语义关系抽取也是信息抽取领域的一个经典任务,一直受到学术界和工业界的广泛关注。近年来,在深度神经网络加持下,语义关系抽取技术在多个公开的数据集上已经取得了不错的成绩。然而,实际场景与传统公开数据集中理想的设定存在巨大鸿沟,现有方法仅适用于孤立考虑单个关系实例、涉及少量实体、仅凭单句文本即可表达完整事实知识的简单应用场景,将它们落地到具有复杂语境、复杂关系的实际应用场景在建模实体关系依赖、复杂实体结构、跨句实体关系三个层面都遇到了严峻挑战。本文主要针对实际场景下的关系抽取展开深入的研究,通过分析目前存在的问题并提出改进。本文主要的研究工作概括如下:一、现有方法大都直接利用相关实体对进行关系分类,孤立考虑两个实体之间的关系,难以应对实际场景下关系之间的语义依赖和约束。针对该问题,本文提出一种融合预训练语言模型和标签依赖知识的关系抽取模型。利用图卷积神经网络对关系标签之间的语义依赖进行建模,结合预训练语言模型BERT强大的特征编码能力,综合考虑一句话中的所有关系事实,从而提升模型的抽取性能。实验结果表明,与基线方法相比,该模型在句子级关系抽取任务上性能有显著提升。二、现有方法聚焦于句子级语义关系抽取,局限于单句文本中的实体关系,在实践中受到不可避免的限制。在实际应用场景中,多数实体语义关系是由整个篇章或者段落描述的,并且通常涉及大量实体和复杂的文本结构。因此,有必要将关系抽取推进至文档级别。针对该问题,本文提出一种基于自适应语义路径感知的文档级关系抽取模型,通过构建精细的文档图并利用图神经网络来建模文档内多粒度的语义信息。为了更好的捕获实体在文档图上的有效信息,模型从广度和深度两方面控制消息传播算法,通过学习节点消息传播的自适应感知路径来筛选和聚合文档级信息。实验结果表明,该模型在抽取句内和跨句实体关系上都有不错的提升。三、现有的文档级关系抽取模型都专注于获取文档级别的实体表示,然后通过两个静态实体表示来预测实体对间的关系。然而,不同实体对中同一实体的表示应该与其所处的实体对密切相关,语义关系可以由动态生成的唯一的实体对表示更好地表达。针对该问题,本文以维护实体对表示为中心提出了上下文引导提及集成和实体对推理两种新技术,分别利用实体对内部和实体对之间的信息来编码和更新实体对表示。上下文引导提及集成利用实体对敏感的上下文来引导目标实体对内部共指提及的集成。实体对间推理构建了一个同构实体对图,利用图神经网络综合考虑文档中所有实体对的内在联系。实验结果证明,该方法能显著提升文档级关系抽取的性能。
基于全局到局部网络与知识注入的文档级关系抽取模型研究
这是一篇关于文档级关系抽取,图神经网络,知识蒸馏,知识图谱的论文, 主要内容为关系抽取旨在识别文本中命名实体间的语义关系,是信息抽取任务的重要组成部分,有着重要的研究和应用价值。虽然之前的工作聚焦于抽取句子内实体间的语义关系,近年来的研究将该任务上升到了文档级别,即文档级关系抽取任务,该任务需要抽取系统能够对文档内的所有实体及其提及进行复杂的推理,包括逻辑推理、共指推理、常识推理等。为了解决现有方法的局限性,本文提出了两个基于深度学习的文档级关系抽取模型:(1)相比句子级关系抽取,文档级关系抽取需要建模文档中更加丰富的语义信息,需要依靠实体的多个位于不同句子的提及来建模实体间复杂交互,但现有工作在提及信息利用上仍存在较多缺陷,因此本文提出了一种新的基于全局到局部神经网络的文档级关系抽取模型即GLRE,该模型综合利用实体的全局表示、实体的局部表示以及上下文关系表示来编码文档信息。实体全局表示对文档中所有实体的语义信息进行建模,实体局部表示针对具体实体对聚合特定实体的多个提及上下文信息,上下文关系表示利用上下文关系对文档的主题信息进行编码。实验结果表明,该模型在文档级关系抽取的两个公共数据集(Doc RED、CDR)上均取得了较好的性能,相较对比方法的最优结果其F1值分别在Doc RED、CDR上提高了3.4、5.4,其在对长距离实体对和多提及实体对的关系抽取上有较好表现。(2)文档级关系抽取需要依靠基于实体及其提及的共指推理和基于额外常识的常识推理,这两类推理的处理需要额外知识的支撑,因此本文提出了一种面向文档级关系抽取的实体驱动的知识注入模型即KIRE,该模型通过多任务学习的方式,将知识图谱和预训练共指消解模型中的知识(涉及共指三元组事实、实体的属性三元组事实和关系三元组事实)引入到现有关系抽取模型中,以此提升任务效果。针对共指三元组事实,采用基于知识蒸馏的方式将共指知识引入到关系抽取模型中。针对实体三元组事实,依次对实体的属性三元组和关系三元组进行语义编码得到基于知识图谱的实体表示,并利用融合重构的方式将学得的实体表示融入到关系抽取模型中。在Doc RED、DWIE数据集上的实验结果表明,KIRE能同时适用于基于图和基于序列的文档级关系抽取模型,并能够普遍提升抽取模型的效果,其F1指标提升幅度可以达到2.62。
基于图神经网络的实体关系抽取技术研究
这是一篇关于深度学习,图神经网络,文档级关系抽取,注意力,联合学习的论文, 主要内容为关系抽取是自然语言处理领域重要的研究方向,如何有效地从大量的文本中提取出关系事实,是近年来的研究热点。现阶段的主流方法通常使用深度学习技术进行关系抽取,这些方法大多集中在单个句子中的关系抽取。然而,大多数关系事实只能从一个段落或者一篇文档中抽取。由于段落和文档输入较长,现有的深度学习方法无法准确在文本中定位关系事实位置,并且不能对跨句子的关系进行推理。针对上述问题,本文结合图神经网络技术构建实体图推理跨句子的关系,并联合注意力分布预测来定位关系事实位置。本文的主要贡献包括以下三个部分:1.提出文档级异构图神经网络算法(DH-GNN),其目的在于推理跨句子的关系。DH-GNN首先利用深度学习相关技术获得实体的高阶语义特征表示;其次构建实体的异构图,并结合图神经网络提取实体异构图的结构信息;最后用实体向量拼接的方式对关系事实进行表示和预测。实验结果表明:该方法较现有的深度学习方法在文档级关系抽取的准确率上具有显著的效果。2.提出联合注意力分布预测的图神经网络关系抽取算法(JA-HGNN),其目的在于有效地定位关系事实位置以提高关系预测准确率。JA-HGNN首先通过预测关系事实的注意力分布获得实体的局部表示,并结合DH-GNN算法获得实体的全局表示;其次聚合实体的全局与局部表示的信息后,通过双线性层对关系事实进行预测;最后,JA-HGNN对注意力分布预测和关系预测进行联合训练以减小流水线训练方式带来的传播误差。实验结果表明:该方法能有效定位关系事实位置,减弱无关信息干扰,提升文档级关系抽取的效果。3.为了解决现有关系抽取系统对文档级关系抽取误差较大的问题,本文结合DH-GNN和JA-HGNN算法,对图神经网络关系抽取原型系统进行设计实现。图神经网络关系抽取系统基于B/S的架构设计,包含模型训练、模型预测和报告记录三个模块,浏览器端(B)主要负责报告记录的可视化,服务端(S)主要负责模型训练和模型预测。该系统能有效地抽取文档中多个实体间的复杂关系,这些抽取的关系事实能被应用于知识图谱的构建,智能问答等下游任务。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设小屋 ,原文地址:https://bishedaima.com/lunwen/49212.html