基于深度学习的知识抽取模型研究
这是一篇关于深度学习,知识抽取,命名实体识别,关系分类,三元组抽取的论文, 主要内容为搜索引擎以及社交网络为人们提供了海量文本信息,但是这些数据的存在形式一般都是非结构化的,难以直接利用其中蕴含的丰富知识。因此,如何从这些非结构化文本中将结构化的知识有效抽取出来,成为当前重要的研究任务。命名实体和三元组都是结构化知识的重要组成部分,有关命名实体识别、关系分类以及三元组抽取任务获取了广泛关注,这三个任务都是知识抽取中的重要环节,知识图谱的构建与这些任务密切相关。尽管当前对命名实体识别、关系分类以及三元组抽取的研究已经取得了许多成果,但仍然有以下问题尚未解决:(1)命名实体识别模型大多以条件随机场作为解码器来生成预测标签序列,但是在模型训练时条件随机场的收敛速度慢,需要消耗大量时间。此外,语言模型会对一些语法角色相近的词指定类似的嵌入,而这会导致生成的词向量表示难以准确表达出单词实际的含义,直接影响模型的性能。(2)现有关系分类模型大多都单独使用预训练语言模型以生成表示或者单独使用图神经网络以学习表征,较少将两种方法相结合以预测实体间的关系。(3)现有的许多三元组抽取方法使用单个模型联合抽取实体和关系,无法有效地对重叠三元组进行抽取,也就是说,一个句子所包含的多个三元组之间有相同的实体,这将导致模型难以学习或者根本无法准确学习到实体之间的关系。深度学习在自然语言处理任务中发挥着重要作用,因此针对以上问题,本文的工作将基于深度学习从以下三个方面开展。(1)针对条件随机场训练速度慢以及生成的词向量质量不高的问题,本文构建了一种基于指针标注的命名实体识别模型(PT-NER),使用BERT和BiGRU获取上下文特征,再通过指针标注对命名实体的边界进行预测,来取代条件随机场作为解码器,以减少训练时间,同时对BERT的输入表示加上扰动,利用对抗训练来提升词向量的质量。本文实验在Resume、CLUENER2020这两个数据集上进行,实验结果证明,PT-NER模型能提升训练速度,且运用对抗训练能进一步提升模型的性能。(2)针对现有关系分类模型较少将基于预训练语言模型的方法和基于图神经网络的方法相结合的问题,本文提出了一种结合预训练语言模型BERT和图注意力网络的关系分类模型(GAT-RC),利用BERT获得词向量,再基于BiLSTM来获得上下文表示,同时将预定义的关系映射为高维向量,再将单词和关系建模为节点,通过图注意力网络来对单词节点表示与关系节点表示进行更新,将头实体和尾实体的表示以及关系节点表示进行拼接后,通过MLP进行关系分类。本文实验在SemEval2010 task8、Re-TACRED这两个数据集上进行,实验证明,GAT-RC模型较基线模型具有更好的性能,能有效实现关系分类。(3)针对多数三元组抽取模型无法有效抽取出重叠三元组的问题,本文基于前面两章的模型PT-NER和GAT-RC,提出了一种融合图注意力网络与指针标注的三元组抽取模型(GAT-PT-RTE),使用BERT、多头注意力机制和图注意力网络来获取关系表示和句子表示,学习到更适合于三元组抽取任务的表示,先利用指针标注来预测头实体,再在特定关系下预测对应的尾实体,并在此基础上加入对抗训练来提升模型的性能,以此进行重叠三元组的有效抽取。本文在WebNLG和NYT这两个数据集上开展了系列实验,结果表明,GAT-PT-RTE能比基线方法更有效进行三元组抽取,而且能有效对重叠的三元组进行识别。综上,本文构建了命名实体识别模型PT-NER、关系分类模型GAT-RC以及三元组抽取模型GAT-PT-RTE,同时在这三个任务上与基线方法相比都获得了更好的效果。不依赖于任何NLP工具,本文提出的模型能推广到更多的知识抽取场景中,对开展相关研究具有参考意义。
基于web数据的碳交易领域知识图谱构建研究
这是一篇关于知识图谱,三元组抽取,实体识别,关系抽取,关联数据的论文, 主要内容为知识图谱作为具有强大语义处理能力和开放组织能力的新兴技术手段,是当前的研究热点之一。根据知识覆盖面不同可以将知识图谱分为通用领域知识图谱和垂直领域知识图谱。目前知识图谱的研究主要集中在通用领域,面向垂直领域的研究工作较少。近年来我国碳交易市场发展迅速,大量异构多源的数据迫切需要一个有效的整合方法,传统的信息集成方法无法从知识的角度对数据进行管理,为此,本文提出构建碳交易领域的知识图谱,以便从web数据中整合碳交易领域的知识。本文的研究重点主要集中在知识图谱的知识获取方面,提出一种构建碳交易领域知识图谱的技术框架,主要研究内容及成果如下:首先,针对碳交易领域数据多源异构、分散自治的特点,通过构建数据获取器,从网络资源中自动收集碳交易领域的相关数据。其次,针对不同结构的数据,提出不同的知识抽取方法。对于百科站点中的半结构化数据,通过构建web数据包装器从中获取知识。对于碳交易领域垂直站点中的非结构化文本数据,将其知识抽取分为实体识别和关系抽取两部分。在实体识别阶段,研究了Bi LSTM-CRF网络训练模型识别句子中的实体,其平均准确率达到90%以上;在关系抽取阶段,研究了依存句法分析模式匹配的方法获取实体之间的关系,提出一种基于标注数据的模式生成方法,实验结果显示该方法能够有效地抽取实体之间的关系。对于国家技术标准网站的行业标准和技术规范文件,通过构建规则提取其中的行业知识。最后,将获取到的三元组知识整合并转化为关联数据的形式,在此基础上构建知识查询模块。同时,通过图数据库Neo4j实现知识可视化展现。实验结果表明,本文提出的知识图谱构建方法,能够有效地从不同结构的数据中获取三元组知识,且在很大程度上减少人工参与;基于知识图谱的知识查询和可视化展现,能够为碳交易领域的知识服务提供帮助。
基于深度神经网络的三元组抽取与模型可解释性研究
这是一篇关于知识图谱,三元组抽取,形式化概念,深度神经网络,可解释性,弱注意力机制的论文, 主要内容为知识图谱作为一种结构化的知识库,其利用图的数据结构将通用或领域信息表达成“实体-关系-实体”的知识三元组,以结构化的形式描述现实世界中概念、实体及其之间的关系。知识三元组的抽取是知识图谱构建或补全的基础性工作,可将非结构化的数据转化为结构化的知识。在当前大数据时代,如何以自动化或半自动化的方式从海量数据中获取知识仍是重要的研究点。随着深度神经网络在自然语言处理的各个领域获得广泛成功,其在实际应用中存在的问题也日益突显,尤其是语料规模依赖度高、既有概念知识引入不易、可解释性差等问题,限制了其在众多领域的实际应用效果。如基于深度神经网络模型的医疗诊断结果因单病种小样本语料,诊断结果的决策依据不易解释等问题限制了其临床应用推广。因此,面向深度神经网络,探索如何引入既有概念知识,以及研究模型决策特征的可解释性,是论文的核心工作。本文主要围绕三元组抽取任务及深度神经网络的可解释性研究展开,提出了融入形式化概念的端到端三元组抽取模型和基于弱注意力机制的模型可解释性研究。本文主要的工作如下:(1)针对三元组抽取任务模型多存在实体识别与关系抽取语义关联不强、实体嵌套、关系重叠,以及既有概念知识关注不多等问题,融合形式化概念与神经网络模型,提出了一种基于关系形式化概念的端到端三元组抽取方法。模型首先提出关系形式化概念标签,以统一实体与关系的语义表达,把实体识别问题转换为概念标签学习问题;其次将实体输入到关系形式化概念注意力模型,该注意力机制力图捕获关系主客体概念的连通内涵特征,即训练获得每个关系标签对应的主客体、及它们上下文依存谓词的综合特征;最后通过多个关系分类器输出每对主客体的多关系标签,实现了基于概念连通的多关系抽取;另外模型还可引入既有形式化概念的外延、内涵,以改善模型对语料标签的依赖,以及实体嵌套导致的标记难题。实验结果证明本文提出的三元组抽取模型在知识抽取上具有切实可行的效果,可改善实体嵌套、关系重叠问题。(2)针对深度神经网络在文本处理领域应用广泛但可解释性较差,其内部不易解释的问题,提出了一种基于弱注意力机制的可解释性方法。方法首先是加载预训练的Word2Vec获取文本向量表示,然后利用双向长短时记忆神经网络提取特征得到文本序列的隐藏层表示,之后经过标签注意力层为每种标签计算一个带上下文编码信息的标签向量表示,建立序列文本与标签之间的语义联系,以此捕获文本中与目标标签关联密切的重要的特征词汇,当模型指标维持稳定之后,使用弱注意力机制不断迭代训练对特征进行精化,最后为直观展示模型内部决策的过程,利用模型中的弱注意力机制可视化权重,实现长句特征的精化和关系谓词的聚焦。(3)基于上述研究,采用python编程语言,设计并开发了三元组抽取及注意力可视化系统。
基于自然语言处理及知识图谱的搜索系统设计与实现
这是一篇关于搜索引擎,知识图谱,语义搜索,三元组抽取的论文, 主要内容为各企业在生产运营过程中会产生大量的数据,这些企业内部数据需要通过企业级数据治理平台来进行数据管理和数据搜索。而当前大多数企业级搜索引擎都是基于关键词匹配进行信息检索,无法形成与用户之间良好的交互,也无法理解用户输入的查询语句的意图。针对上述问题,本课题设计开发了基于自然语言处理技术及知识图谱的企业级搜索系统,能够一定程度上理解用户输入语句的语义,使搜索引擎实现知识层面的语义搜索。本文的主要研究工作和创新点如下:1.根据现有企业级搜索系统所存在问题和本系统的目标,从功能性和非功能性的角度对系统进行了全面需求分析。功能性方面,系统针对企业级数据需要实现数据处理、数据索引、知识图谱构建和信息检索;非功能性方面,系统需具有扩展性、稳定性、用户友好性等特性。对系统进行了总体架构设计,对系统的各个功能模块进行了详细的设计。2.对知识图谱构建方法进行了研究。制定了适于企业级数据的知识图谱构建方案,研究了三元组抽取方法。分别基于Bert-base预训练模型和Ro BERTa预训练模型进行了三元组抽取实验,并对结果进行了对比,基于Ro BERTa训练出的三元组抽取模型效果更优。本系统实现了基于Ro BERTa模型的三元组抽取方法,作为知识图谱构建的前置工作。围绕三元组抽取设计开发了知识管理功能,用于对数据进行打标、训练模型、数据审核、知识抽取及数据存储,进而实现知识图谱构建。3.对基于知识图谱的语义搜索方法进行了研究。首先研究了基于问句模板匹配的方法,并进行了设计与实现。接着研究了对此方法的改进,提出了“关系匹配”方法。介绍了此方法所用到的语义匹配技术和实现方式,对此方法与“问句模板匹配”方法进行了对比,并对此方法进行了实现。根据分析,本文提出的“关系匹配”方法更加容易获得用户的搜索意图。4.围绕对系统的需求分析,对系统进行了设计,并对系统的各个模块进行了具体的实现。基于三元组抽取方法,实现了将企业数据按类型或领域构建知识图谱的核心功能。通过知识图谱的语义表示能力,实现了本文提出的“关系匹配”方法,使系统一定程度上实现了对用户所输入的查询语句的意图识别,进而实现了基于知识图谱的语义搜索功能。
基于自然语言处理及知识图谱的搜索系统设计与实现
这是一篇关于搜索引擎,知识图谱,语义搜索,三元组抽取的论文, 主要内容为各企业在生产运营过程中会产生大量的数据,这些企业内部数据需要通过企业级数据治理平台来进行数据管理和数据搜索。而当前大多数企业级搜索引擎都是基于关键词匹配进行信息检索,无法形成与用户之间良好的交互,也无法理解用户输入的查询语句的意图。针对上述问题,本课题设计开发了基于自然语言处理技术及知识图谱的企业级搜索系统,能够一定程度上理解用户输入语句的语义,使搜索引擎实现知识层面的语义搜索。本文的主要研究工作和创新点如下:1.根据现有企业级搜索系统所存在问题和本系统的目标,从功能性和非功能性的角度对系统进行了全面需求分析。功能性方面,系统针对企业级数据需要实现数据处理、数据索引、知识图谱构建和信息检索;非功能性方面,系统需具有扩展性、稳定性、用户友好性等特性。对系统进行了总体架构设计,对系统的各个功能模块进行了详细的设计。2.对知识图谱构建方法进行了研究。制定了适于企业级数据的知识图谱构建方案,研究了三元组抽取方法。分别基于Bert-base预训练模型和Ro BERTa预训练模型进行了三元组抽取实验,并对结果进行了对比,基于Ro BERTa训练出的三元组抽取模型效果更优。本系统实现了基于Ro BERTa模型的三元组抽取方法,作为知识图谱构建的前置工作。围绕三元组抽取设计开发了知识管理功能,用于对数据进行打标、训练模型、数据审核、知识抽取及数据存储,进而实现知识图谱构建。3.对基于知识图谱的语义搜索方法进行了研究。首先研究了基于问句模板匹配的方法,并进行了设计与实现。接着研究了对此方法的改进,提出了“关系匹配”方法。介绍了此方法所用到的语义匹配技术和实现方式,对此方法与“问句模板匹配”方法进行了对比,并对此方法进行了实现。根据分析,本文提出的“关系匹配”方法更加容易获得用户的搜索意图。4.围绕对系统的需求分析,对系统进行了设计,并对系统的各个模块进行了具体的实现。基于三元组抽取方法,实现了将企业数据按类型或领域构建知识图谱的核心功能。通过知识图谱的语义表示能力,实现了本文提出的“关系匹配”方法,使系统一定程度上实现了对用户所输入的查询语句的意图识别,进而实现了基于知识图谱的语义搜索功能。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码港湾 ,原文地址:https://bishedaima.com/lunwen/46299.html