基于知识图谱的需求模式挖掘方法的研究
这是一篇关于实体关系抽取,本体对齐,知识图谱,模式挖掘的论文, 主要内容为在当前复杂的互联网服务环境下,服务供求双方双盲现象普遍存在。服务需求者对外部服务和相关领域知之甚少,难以准确全面地表达需求。而服务提供者所掌握的用户需求信息有限,因此难以准确恰当地提供服务。为解决以上问题,我们需要获取大量用户需求并进行综合分析,挖掘用户的需求模式,从而帮助用户进行模糊需求的匹配以及为商家提供潜在的用户需求。但目前在网络中,用户的需求来自异构的数据源,且需求表达具有多样性、不规范以及非结构化的特征。因此,基于碎片化的用户需求,通过知识抽取、知识融合以及知识挖掘工作从离散的数据中获取有价值的需求信息,将对当前服务供求市场具有重要意义。本文采用众包服务网站Free Lancer中的用户需求描述短文本对以上问题展开研究。首先通过实体关系抽取方法将每篇非结构化的文本构建成结构化的本体形式,然后通过知识融合方法将大规模需求本体融合成一个热度综合需求图谱。其中,由于用户的表达异构,我们采用基于元素和基于结构的对齐方法,并分别从字符串层面和语义层面将本体中的实体对齐;然后基于融合需求图谱,采用概率图模型挖掘本课题所定义的链路模式和簇状模式。为避免在庞大的需求图谱中直接进行图搜索,我们提出一种基于领域视角的模式挖掘方法,将大规模的需求图谱抽象压缩到领域知识空间。该过程我们通过领域术语抽取方法标识领域实体节点,并采用表示学习方法补全离散的领域知识间的关联。最后,我们基于以上研究成果,设计并开发了一个用户需求模式匹配工具,通过模式挖掘方法辅助用户进行需求文本的编写。互联网当中的用户的需求大多是模糊而嘈杂的,因为没有一种统一的表达规范,在此基础上进行的以上问题的研究十分困难。在实体关系抽取阶段,我们通过规则定义改善了现有NLP工具的不足;在图谱融合阶段,我们借助已有本体对齐方法的支撑,将各类方法进行综合和改进。对于需求模式挖掘,我们创新地提出一种基于领域视角的模式抽取方法,在多粒度空间下进行用户需求模式的挖掘。最后,本课题通过对比实验验证了所采用方法的有效性,并通过具体应用实例证明了本课题的研究价值与意义。
命名实体识别和实体关系抽取关键技术研究
这是一篇关于知识图谱,命名实体识别,实体关系抽取,联合学习的论文, 主要内容为知识图谱是一种结构化的语义知识库,以符号形式描述物理世界中的概念及其相互关系,通过推理方式实现概念检索,并以图形化方式展示经过分类整理的结构化知识。近年来随着科技创新的发展,知识图谱作为一种智能、高效的知识组织方式被应用于各个领域。命名实体识别技术是构建知识图谱的关键环节,是指从文本数据集中自动识别出具有特定意义的实体信息。目前,命名实体识别技术多采用深度学习和统计方法相结合的混合模型,现阶段的技术方法对简单人名、地名、机构名等的识别效果上均已达到90%以上,但在中文语言环境下命名实体识别依然存在很多挑战。针对中文命名实体识别发展中的问题,本文提出基于双向LSTM结合层叠条件随机场(Bi-LSTM-CCRFs)的命名实体识别方法,该方法将双向LSTM网络(Bi-LSTM)和层叠条件随机场(CCRFs)相结合,不仅减少了人工参与,而且提高了复杂结构命名实体的识别效果。实体关系抽取是以命名实体识别为基础的更深层次研究内容,是指从文本数据集中自动抽取出实体间的关系。近年来,实体关系抽取逐渐由基于命名实体识别的流水线方法过渡到基于深度学习的联合抽取方法,现阶段主要有参数共享和标注策略两种联合抽取方法。本文提出基于标注策略的联合实体关系抽取方法,该方法通过中文序列标注策略实现实体关系的联合抽取,模型采用基于注意力机制的Bi-LSTM网络完成端到端的三元组关系抽取。为验证本文提出的两种方法的可行性,将算法理论应用于实践中,搭建了一个知识图谱构建系统,系统包括命名实体识别模块、实体关系抽取模块、知识检索展示模块和用户模型管理模块。其中,命名实体识别模块默认调用Bi-LSTMCCRFs命名实体识别模型,实体关系抽取模块默认调用联合实体关系抽取模型。知识检索模块为用户提供基于系统数据库的知识检索服务,并将检索结果以图形化的形式展示给用户。
面向小麦病虫害领域的中文命名实体识别和关系抽取研究
这是一篇关于小麦病虫害,实体识别,实体关系抽取,知识图谱,知识可视化的论文, 主要内容为小麦是全球最重要的粮食作物之一,其种植面积与产量在粮食作物中占比较高。小麦种植过程中面临着许多挑战,各种各样的病虫害是影响小麦产量和品质的主要原因之一,有效的预防和防治措施能够促进小麦种植产业的发展。目前,丰富的小麦病虫害预防和防治措施等知识往往以非结构化文本的形式保存在网页、书籍和文献中,数据的存储、组织、表示及管理方式不尽相同,导致该领域数据处于分散混乱的状态,并且由于非结构化文本难以直观刻画出重要信息之间的关系,不利于知识的高效利用,也不利于知识的获取和共享,难以满足小麦生产管理者对病虫害知识更深层次和更细粒度的信息需求。知识抽取是一种组织和管理非结构化文本数据的有效方法,其目的是从非结构化数据中识别出相关命名实体,并抽取实体之间的关系,在知识图谱、知识检索、知识库问答等领域发挥着重要作用。本文为了提高小麦病虫害知识组织的有效性,以非结构化文本形式的小麦病虫害知识数据为研究对象,开展命名实体识别和关系抽取研究,分别提出了基于远程监督和有监督的小麦病虫害知识抽取模型,并实现了小麦病虫害知识的可视化展示。本文主要完成的工作内容如下:(1)基于远程监督的小麦病虫害中文实体关系抽取。针对小麦病虫害领域数据集匮乏问题,基于远程监督的思想,利用CN-DBpedia与Ownthink两个外部知识库中的相关三元组与小麦病虫害非结构化文本知识进行匹配对齐,并结合人工校正的方式构造了小麦病虫害中文实体关系抽取数据集Wheat CRE,该数据集蕴含6种关系类别。其次进一步分析了该数据集的文本特征,为了降低句内噪声词对模型的影响,提出了一种融合BERT与实体表征的单标签句子级实体关系抽取模型BE-CRE,该模型基于BERT获取动态字符表征,为了丰富文本特征,进一步融合了目标实体表征,充分利用小麦病虫害中文命名实体隐含的特定含义,为模型提供额外的有效信息,提升了模型在关系抽取任务中的效果。与当前主流模型相比,BE-CRE在Wheat CRE上表现最佳,F1-M值为89.29%,且BE-CRE在人物关系抽取数据集Character CRE上的表现优于对比模型,F1-M值为78.31%,证明该模型具有一定的泛化性。(2)基于有监督的小麦病虫害中文命名实体识别与关系抽取。远程监督利用外部知识库可以有效解决数据集匮乏问题,但其依赖于外部知识库的支撑,存在知识挖掘不充分的问题。为了深层次挖掘小麦病虫害非结构化文本中蕴含的知识,在前述研究的基础上,首先结合领域专家的指导和对农业领域已有研究的总结,深入剖析小麦病虫害文本知识,细粒度定义了21种实体类别和18种关系类别,并通过人工标注的方式,分别构建了小麦病虫害实体识别数据集Wpd CNER和关系抽取数据集Wpd CRE。针对实体类别增加带来的实体类别分布不均匀、实体边界模糊、实体嵌套等具体问题,提出一种融合ALBERT-Bi LSTM-CRF与规则的实体识别模型WPD-RA,该模型在Wpd CNER上识别的F1值为95.29%,优于当前主流模型。针对关系类别进一步多样化带来的关系重叠问题,提出一种融合BERT-Bi LSTM-Attention与实体表征的关系抽取模型WPD-BBAE,利用Attention动态分配权重,增强句中关键词的重要性,该模型在Wpd CRE上表现最佳,F1-M值为90.44%。(3)小麦病虫害知识的可视化展示。基于前述工作建立的知识抽取方法,首先对小麦病虫害领域的非结构化训练语料进行实体识别和关系抽取,得到了结构化的小麦病虫害实体关系三元组,经三元组去重处理,最终共得到2684个实体,5668个关系,实现了对小麦病虫害知识的细粒度挖掘与结构化整合。其次通过图数据库Neo4j对处理后的三元组数据进行存储,实现了小麦病虫害知识的可视化展示,为小麦病虫害知识的获取与共享提供途径。本文针对小麦病虫害领域的非结构化文本数据,分别提出了远程监督和有监督的小麦病虫害实体识别和关系抽取模型,可以为该领域知识的细粒度挖掘与结构化组织提供技术支撑,进而可以为构建该领域知识图谱、智能知识检索、智能问答等深层次知识利用发挥作用。
中文医学领域的命名实体识别和实体关系抽取研究
这是一篇关于中文医学,命名实体识别,实体关系抽取,词汇信息,注意力机制的论文, 主要内容为近年来,医学知识图谱、医学智能问答系统和临床辅助决策系统等应用的普及为医务人员的诊疗效率、诊疗能力以及诊疗质量的提高提供了基础,是医疗信息化建设发展的热点领域。命名实体识别和实体关系抽取是实现医学知识图谱的两个重要子任务,目前,在中文医学命名实体识别的研究中,缺少对中文字符粒度和词粒度的综合利用,使得中文医学命名实体识别结果的准确性难以提高;在中文医学实体关系抽取的研究中,存在实体抽取错误累积和实体关系三元组重叠问题。为了解决上述问题,本文的主要研究内容如下:首先,为了解决命名实体识别中的粒度稀疏和专业词汇问题,本文提出了一种引入词汇信息的基于门控循环单元的命名实体识别模型(Chinese Medical Named Entity Recognition Model based on Gate Recurrent Unit Introduced Word Information,WI-NER),并在嵌入层对匹配专业词的字符进行特征嵌入与向量融合;在上下文编码层添加了一种新的词汇门控单元,利用神经网络自动提取实体识别所需的特征;引入了词汇信息和先验知识,实现了中文医学命名实体识别效果的提升。其次,为解决实体关系抽取中的实体错误累积和重叠实体问题,本文提出一种基于注意力机制的关系主导型中文医学实体关系联合抽取模型(Chinese Medical Joint Entities and Relations Extraction Based on Chinese Medical Attention Mechanism,AMERE)。该模型利用注意力机制为每个医学关系构建特定的句子表示;基于命名实体识别模型WI-NER,通过序列标注的方式提取每个关系对应的头实体和尾实体;基于词汇信息和上下文对关系的影响,解决了实体抽取错误累积问题和关系重叠问题。最后,在三个中文医学命名实体识别数据集上进行实验,与其它模型进行对比分析,证明了字符粒度与词粒度单元的综合利用能够有效提升中文医学命名实体识别的准确率,验证了本文提出的命名实体识别模型WI-NER的有效性。同时,在两个中文医学实体关系抽取数据集上进行实验,与其它模型进行对比分析,解决了实体抽取错误累积的问题,通过分析实体关系抽取中各特征的重要性,验证了本文提出的实体关系抽取模型AM-ERE的有效性。
基于知识图谱的需求模式挖掘方法的研究
这是一篇关于实体关系抽取,本体对齐,知识图谱,模式挖掘的论文, 主要内容为在当前复杂的互联网服务环境下,服务供求双方双盲现象普遍存在。服务需求者对外部服务和相关领域知之甚少,难以准确全面地表达需求。而服务提供者所掌握的用户需求信息有限,因此难以准确恰当地提供服务。为解决以上问题,我们需要获取大量用户需求并进行综合分析,挖掘用户的需求模式,从而帮助用户进行模糊需求的匹配以及为商家提供潜在的用户需求。但目前在网络中,用户的需求来自异构的数据源,且需求表达具有多样性、不规范以及非结构化的特征。因此,基于碎片化的用户需求,通过知识抽取、知识融合以及知识挖掘工作从离散的数据中获取有价值的需求信息,将对当前服务供求市场具有重要意义。本文采用众包服务网站Free Lancer中的用户需求描述短文本对以上问题展开研究。首先通过实体关系抽取方法将每篇非结构化的文本构建成结构化的本体形式,然后通过知识融合方法将大规模需求本体融合成一个热度综合需求图谱。其中,由于用户的表达异构,我们采用基于元素和基于结构的对齐方法,并分别从字符串层面和语义层面将本体中的实体对齐;然后基于融合需求图谱,采用概率图模型挖掘本课题所定义的链路模式和簇状模式。为避免在庞大的需求图谱中直接进行图搜索,我们提出一种基于领域视角的模式挖掘方法,将大规模的需求图谱抽象压缩到领域知识空间。该过程我们通过领域术语抽取方法标识领域实体节点,并采用表示学习方法补全离散的领域知识间的关联。最后,我们基于以上研究成果,设计并开发了一个用户需求模式匹配工具,通过模式挖掘方法辅助用户进行需求文本的编写。互联网当中的用户的需求大多是模糊而嘈杂的,因为没有一种统一的表达规范,在此基础上进行的以上问题的研究十分困难。在实体关系抽取阶段,我们通过规则定义改善了现有NLP工具的不足;在图谱融合阶段,我们借助已有本体对齐方法的支撑,将各类方法进行综合和改进。对于需求模式挖掘,我们创新地提出一种基于领域视角的模式抽取方法,在多粒度空间下进行用户需求模式的挖掘。最后,本课题通过对比实验验证了所采用方法的有效性,并通过具体应用实例证明了本课题的研究价值与意义。
基于深度迁移学习的实体关系抽取方法
这是一篇关于实体关系抽取,深度迁移学习,预训练模型,度量元学习,少样本学习的论文, 主要内容为随着互联网的高速发展,人类可获取的信息量呈指数级增长,如何从海量数据中挖掘有效的信息成为亟待解决的问题。信息抽取研究正是在这种情况下产生的,其目标是将自然文本中的无结构化信息进行结构化处理,以统一的形式存储,并对获取的知识进行关联融合。实体关系抽取是其中重要组成部分之一,其通过理解文本语义,抽取文本中实体之间的现实关系,形成<实体-关系-实体>三元组作为知识图谱的最基本组件。因此,实体关系抽取技术的精度与适用性直接影响了知识图谱的准确性与体量,对构建大规模知识图谱至关重要。深度学习模型促进了实体关系抽取技术的发展,但仍面临着文本数据内容分散、实体关系类别繁杂、标注工作难度大等问题。目前,常规的实体关系抽取任务主要通过远程监督(Distant Supervision)机制自动生成大量有标注数据,并利用深度神经网络模型进行端到端的实体关系分类,但是深受噪声和误标注等问题影响,导致模型训练过程中的参数更新受到错误信息影响,抽取精度降低;在生物、医疗等专业领域存在少样本学习(Few-shot Learning)场景,通常难以自动生成数据,只能利用极少量甚至个位数的实例样本,常规的深度学习模型在少样本情况下难以学习由文本到分类的多层映射,损失函数不能收敛,导致预测结果倾向于随机,无法有效应用。为了解决上述难点,本文将深度迁移学习(Deep Transfer Learning)技术引入实体关系抽取领域,依托深度神经网络模型强大的特征提取与拟合能力,并使用迁移学习方法,将在语义信息充足的任务中得到的外部知识应用到目标任务中协助学习,提升实体关系抽取模型的性能。首先,本文针对远程监督机制下的噪声场景,提出了一种基于BERT预训练模型的实体关系抽取模型(BERT for Relation Extraction,BRE),在外部语料中进行预训练,并将模型参数迁移到远程监督实体关系数据集中进行微调(Finetune)。本文提出的BRE模型构建了位置增强卷积层,以增强处理实体位置信息,将外部语料的绝对位置信息迁移到关于实体的相对位置信息中,使外部知识可以融入实体关系的判断,同时减弱噪声对真实关系属性的干扰。此外,本文还设计了时间衰减注意力机制用于多实例学习模式的降噪处理,在模型迭代的过程中按时间衰减而遮蔽低置信的实例,保留高置信的实例加权获取表示向量,以缓解误标注实例对模型参数更新的影响,提升模型的精度。BRE在NYT-10和GIDS等公开数据集中进行评估,验证了其优越性能。然后,针对少样本实体关系抽取任务中数据极度稀缺导致的模型无法收敛的问题,本文提出了基于度量元学习(Metric-based Meta Learning)的少样本实体关系抽取方法,该方法延伸了知识迁移的思想,将模型参数知识的迁移拓展为类别知识的迁移,即维护一个度量空间,设计元任务从具有足量数据的类别中学习文本实例与关系类别在空间中的匹配关系,并将通用的类别知识迁移到少样本的关系类别中。本文设计了以深度神经网络为基本框架,使用度量元学习方法训练的少样本实体关系抽取模型,称为多通路注意力网络(Multi-Channel Attention Network,MCAN)。MCAN 框架采用 多通路并行处理的方式保留更全面的信息,并引入了双目标辅助损失函数协助训练,使关系类别在度量空间中的划分更加清晰。MCAN框架在NYT-10和FewRel等公开数据集中验证了其优越性能及稳定性。
融合多元信息的实体关系抽取研究
这是一篇关于实体关系抽取,最短依存路径,句法结构信息,知网,注意力机制的论文, 主要内容为信息抽取是自然语言处理(NLP)领域研究热点之一,而实体关系抽取作为其基础任务尤为重要。实体关系抽取的目的是从大量的非结构化数据中剥离出具有结构化的实体然后对实体之间的语义关系进行判断,通常使用三元组的方式进行表示,此技术为之后搭建知识图谱、信息检索、自动问答等技术提供基础。目前实体关系抽取的研究方向大多是以单一的词向量表示或结合不同特征进行处理,在用多个方法处理后的结果,在不同关系类型的分类中,他们对关系的判断有着各自的优势和劣势。所以本文据此提出了采用多个数据处理方式对实验数据进行处理,独立输入到下一层,统计其优劣势,再更合理的分配权重是本文的核心创新点。关系抽取的研究也是逐步发展的,分别经历了知识工程、传统机器学习、深度学习这三个阶段。目前而言深度学习方法已经成为当今的主流,其原因是相对于那些需要专业领域人才设计需要特征的传统实体关系抽取,深度学习方法通过自动学习,模型统计规律,有效的避免了像传统方法需要消耗大量人力和时间,同时也减少了错误的传播,所以本文在深度学习的基础上来进行研究。而在深度学习模型中也发现通过把卷积神经网络和双向LSTM模型进行合理的组合也可以很好地提高实验的整体性能。为了突出实体在句子中的重要性并更好地挖掘词语间的关系,在神经网络模型中添加了注意力机制。针对以上问题,本实验提出了相应的解决办法,主要的创新点由以下三点构成;(1)本实验提出了一种多模型融合策略,即将句法结构分析、最短依存路径与知网处理结果分别独立地输入到神经网络层中,结合各方法在相应关系分类中的敏感度,优化设置不同模型面向不同关系识别的权重分布。(2)在原有的Bi-LSTM模型基础上,增加卷积神经网路(CNN),从而可以更好地捕获句子局部关键信息,提高实验的性能。为了保持数据的完整性,每次输入都会与原始数据相结合,目的是保持数据信息的完整性,以更好地状态输入到Bi-LSTM层中去,这样两个模型的优势都很好的得到表现。(3)为了更好的学习词语之间的依赖关系,捕捉句子的内部语义信息,在原有的模型中添加了注意力机制,在注意力层中为了改善关系抽取在长复杂句中的分类效果,把输入到注意力层的数据中所有的隐藏状态提取出来,为了证明这个方法的有效性同时也做了对比实验,最后通过结果证明提取所有的隐藏状态比提取单一的隐藏状态效果更佳。实验结果对比,在融合多元信息神经网络模型后,F值为79.38%,照比初始实验有了显著提升。之后通过添加注意力机制模型,F值提高了2.62%,通过实验数据证明实验方法可行。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设海岸 ,原文地址:https://bishedaima.com/lunwen/46270.html