细粒度实体分类与短文本实体链接研究
这是一篇关于细粒度实体分类,BERT,联合向量,短文本实体链接,多任务学习,信息不充分的论文, 主要内容为互联网中的文本数据在当前的大数据时代呈现爆炸式增长,如何从海量的互联网文本中准确地找出对人们有价值的信息成为当前的热点研究问题。知识图谱的产生为海量互联网数据的充分利用提供了可能。细粒度实体分类是信息抽取任务中的关键环节,能够为实体链接和知识图谱的下游应用提供辅助作用;实体链接是知识图谱构建和应用过程中的关键技术。论文主要研究内容为细粒度实体分类和短文本实体链接,研究成果如下:(1)提出一种基于BERT的细粒度实体分类方法。首先将样本输入BERT层进行特征提取,然后取BERT输出的[CLS]位置对应的向量作为输入文本的句子向量;根据实体指称在输入文本中的开始和结束位置取BERT输出中对应位置的向量,将其拼接作为实体指称特征向量。将实体指称特征向量和句子向量拼接组成联合向量,将联合特征向量输入分类层对实体指称进行分类。实验结果表明,本章提出的细粒度实体分类方法能够有效解决中文细粒度实体分类问题。(2)提出一种基于多任务学习的短文本实体链接方法,将多任务学习方法引入短文本实体链接过程中。构建多任务学习模型,将短文本实体链接作为主任务,引入实体分类作为辅助任务,辅助任务能够缓解短文本实体链接过程中信息不充分的问题,促使模型学习到更加通用的底层表达,从而提高模型的泛化能力,优化模型在短文本实体链接任务中的表现。在CCKS2020(全国知识图谱与语义计算大会)任务二数据集上的实验表明,该方法取得了较好的实体链接效果,可以有效解决短文本实体链接过程中的信息不充分问题。
基于稀疏标注的领域本体构建和细粒度实体分类方法研究
这是一篇关于领域本体构建,领域词抽取,语言学规则,细粒度实体分类,任务无关元学习的论文, 主要内容为大数据时代的到来,在信息获取方面为人们提供了更多便利,与此同时也带来了信息爆炸的问题。如何高效地挖掘有价值的信息,已经成为当前全世界研究的热点。因此,可以关联各种信息的知识图谱应运而生。由于领域本体构建和实体分类是知识图谱构建的两个重要子任务,而领域本体构建的基础是领域词抽取,本文主要针对领域词抽取和实体分类两个任务进行研究。首先,针对领域词抽取任务中标注语料稀缺的问题,本文提出了一种基于语言学规则和BERT嵌入的领域词抽取算法。该算法运用语言学规则从领域文本中分离出严格非领域词,并将其添加到原始的稀疏标注语料库中,对语料库进行扩充,然后通过基于BERT的词分类模型,实现领域词抽取,从而提升领域词抽取的准确度。其次,针对细粒度实体分类任务中标注语料稀缺的问题,本文首次将任务无关的元学习方法应用于细粒度实体分类任务中,构建了一个基于预训练BERT模型的任务无关细粒度实体分类算法,该算法首先采用BERT预训练模型对实例中的每个单词映射到低维的向量空间,并运用模型无关的元学习方法,构建了一个基于多任务的细粒度实体分类模型;接着在预测结果基础上添加正则项,减弱任务间的不平等性,进而提高模型对新任务的泛化能力。最后,分别在自定义数据集和公开数据集上对所提出的基于语言学规则的领域词抽取方法和基于任务无关的实体分类模型进行了实验对比分析,实验结果表明,本文提出的算法具有更好的性能。
基于多任务的元学习方法在细粒度实体分类中的研究
这是一篇关于细粒度实体分类,元学习,多任务学习,少样本学习的论文, 主要内容为互联网发展至今,每时每刻都会产生海量的非结构化信息数据,需要利用信息抽取技术自动地将其转化为结构化知识数据存储并利用。细粒度实体分类任务是信息抽取研究关键性的基础任务之一,为知识图谱、知识库的构建提供了关键性的技术支撑。细粒度实体分类领域高质量数据资源匮乏,人工标注成本高,数据成为了模型的瓶颈。如何利用已有资源数据,获得更好的模型泛化能力,以及如何在少样本领域,有效地利用新标注的资源,都是亟待解决的问题。本文针对上述挑战,提出了两种方法,一种是针对整合现有数据集的多任务学习方法,另一种则是针对少样本领域的多任务元学习方法。(1)基于多任务的细粒度实体分类的方法。本文设计了基于多任务学习的硬参数共享机制,通过整合多个现有数据集和自主创建的数据集,得到一个通用型模型。此模型借助实体类型的层级信息,构建了实体类型的嵌入式表达;并通过共享特征抽取层,隐式地增加了训练数据,提高了网络的学习能力;在任务层方面,增强了与任务相关的信息,使得共享层的输出能够更加贴合任务本身,进一步提升模型拟合能力。实验结果证明,不论是数据集还是多任务学习的方法,对于细粒度实体分类任务都有较强的提升效果,最佳的模型在原基准模型上有百分之五十的提升。(2)基于多任务的元学习细粒度实体分类的方法。本文设计了一种基于多任务的元学习实验,在新任务上进行训练测试,进而比较模型学会学习的能力。在此基础上本文提出了两种方法:一种是基于梯度下降的元学习算法,它具有较快拟合,且普适性广的特点;另一种是基于原型网络的元学习算法,通过对每个任务中每个实体类型建立原型表征,令模型学习任务之间的先验分布,并通过使用该先验分布的训练结果,使模型在新数据集上取得更出色的成绩。最后通过实验结果表明基于多任务的元学习模型的结果能在基准模型上提升将近百分之四十,进一步证明了上述两种方法的优越性,为少量样本中的细粒度实体分类问题提供了新思路。本文提出的两种方法消除了现有细粒度实体分类数据集之间的鸿沟,也在一定程度上解决了少样本领域中细粒度实体分类的问题。此外,本文提出的方法参加了TAC 2019年知识库构建大赛,并取得了国内第一的成绩,并将方法直接应用到了由中国工程院牵头的中国工程科技知识中心建设项目,为知识库构建发挥了重要的作用。
基于深度神经网络的细粒度实体分类方法研究
这是一篇关于细粒度实体分类,图卷积神经网络,注意力机制,层次结构编码器,卷积神经网络的论文, 主要内容为近年来,细粒度实体分类已经成为命名实体识别研究领域的重要子任务。但是由于数据集质量参差不齐,没有统一的细粒度实体分类类型标准,现有算法存在着不能充分利用细粒度实体类型的层级结构和实体类型自身的语义信息,以及对长实体类型识别错误等问题。因此,本文通过对深度神经网络进行创新来提升细粒度实体分类的性能。本文主要研究工作及成果概括如下:(1)针对现有细粒度实体分类方法都着眼于如何更好编码提及和上下文语义信息,而忽略细粒度实体类型所具有层级结构信息的问题,本文提出了一种全新基于层次感知的细粒度实体分类(HAFGET)方法。首先利用基于图卷积神经网络的层次结构编码器对不同层级标签之间的依赖关系进行建模;然后利用多标签注意力模型和实体特征传播模型对实体上下文特征进行层次结构感知和分类,前者通过层次编码器学习层次感知标签嵌入,并与实体特征通过注意力融合后进行标签分类,后者则直接将实体特征输入到层次结构编码器更新特征表示后进行分类。在FIGER、Onto Notes和KNET三个公开数据集上的实验结果表明,该模型的准确率值和宏平均F1值均提升2%以上,验证了该模型能够有效提升分类效果。(2)针对现有的细粒度实体分类方法对长实体分类效果比较差,同时实体所在上下文的语义信息对实体分类具有重要作用,因此,为了更好地捕获长实体语义信息,本文提出了一种基于注意力卷积神经网络提取长实体的语义特征。该方法充分利用了卷积神经网络和注意力机制各自优点,不仅能捕获实体的高层次语义信息,而且还能提取句子的时序信息。通过适当的卷积核去提取文本的N-gram特征,然后利用注意力机制为上下文分配不同的权重,最后生成最终实体表示。在Onto Notes和FIGER数据集上对该模型进行性能评估,实验结果表明,在Macro F1值上提升了3.75%和1.23%,验证了模型的有效性。(3)最后,从现实应用出发,实现细粒度实体分类原型系统的开发,通过采用B/S架构模式进行系统设计,对所提出的细粒度实体分类模型进行封装,并使用Lay UI+Spring Boot+Django+REST Framework技术进行系统开发,从而将细粒度实体分类任务结果可视化。
基于知识图谱表示学习的细粒度实体分类算法研究
这是一篇关于知识图谱,细粒度实体分类,表示学习的论文, 主要内容为实体的类型信息在知识图谱中非常重要,实体的类型信息粒度越细,其在各种知识图谱相关的任务(例如:实体链接、关系预测、问答系统等)中起到的作用就越大。然而,很多常见的知识图谱中存在着大量缺失类型的实体,实体分类的任务就是为这样的实体补全缺失的类型。作为大多数知识图谱相关任务的上游任务,知识图谱表示学习通常根据实体之间的关系将实体和关系表示为方便参与计算的低维向量。近年来,知识图谱表示学习在实体分类任务中有着相当的应用。然而这类方法大多难以处理新出现的实体而且其表现也严重依赖于实体之间关系的稠密程度。并且,当类型粒度较细时,上述方法难以取得良好的效果。对此,本文主要研究了针对新增实体以及关系稀疏实体的知识图谱表示学习方法,并且探索了知识图谱表示学习技术如何提升细粒度实体分类的效果,从而更好地补全图谱的类型信息。本文的主要研究内容为:(1)本文针对新增实体提出了一种基于多重注意力的知识图谱表示学习方法。该方法首先通过实体的文本摘要信息来获得实体的初步表示,随后使用多重注意力机制增强实体的表示。本文在多个数据集上的实验验证了该方法对于新增实体的表示能力。(2)本文提出了一个专门面向关系稀疏的实体进行细粒度分类的方法。该方法借鉴了传统表示学习的思想,提出了一个专门用于实体分类的优化目标。同时本文引入了非连续型属性来解决部分实体关系稀疏的问题。本文在两个真实数据集上进行实验,证实了所提方法对于关系稀疏实体的分类能力。(3)针对细粒度实体分类这个下游任务,本文提出了一种基于多重注意力机制的双视角表示学习方法。该方法引入了实体分类任务中独有的类型的文本摘要信息以及类型之间的关系网络信息。首先在双视角下分别表示实体的语义向量以及类型的语义向量,随后经由得分函数获得实体是各个类型的可能性得分。实验结果证明了该方法的有效性。
基于多任务的元学习方法在细粒度实体分类中的研究
这是一篇关于细粒度实体分类,元学习,多任务学习,少样本学习的论文, 主要内容为互联网发展至今,每时每刻都会产生海量的非结构化信息数据,需要利用信息抽取技术自动地将其转化为结构化知识数据存储并利用。细粒度实体分类任务是信息抽取研究关键性的基础任务之一,为知识图谱、知识库的构建提供了关键性的技术支撑。细粒度实体分类领域高质量数据资源匮乏,人工标注成本高,数据成为了模型的瓶颈。如何利用已有资源数据,获得更好的模型泛化能力,以及如何在少样本领域,有效地利用新标注的资源,都是亟待解决的问题。本文针对上述挑战,提出了两种方法,一种是针对整合现有数据集的多任务学习方法,另一种则是针对少样本领域的多任务元学习方法。(1)基于多任务的细粒度实体分类的方法。本文设计了基于多任务学习的硬参数共享机制,通过整合多个现有数据集和自主创建的数据集,得到一个通用型模型。此模型借助实体类型的层级信息,构建了实体类型的嵌入式表达;并通过共享特征抽取层,隐式地增加了训练数据,提高了网络的学习能力;在任务层方面,增强了与任务相关的信息,使得共享层的输出能够更加贴合任务本身,进一步提升模型拟合能力。实验结果证明,不论是数据集还是多任务学习的方法,对于细粒度实体分类任务都有较强的提升效果,最佳的模型在原基准模型上有百分之五十的提升。(2)基于多任务的元学习细粒度实体分类的方法。本文设计了一种基于多任务的元学习实验,在新任务上进行训练测试,进而比较模型学会学习的能力。在此基础上本文提出了两种方法:一种是基于梯度下降的元学习算法,它具有较快拟合,且普适性广的特点;另一种是基于原型网络的元学习算法,通过对每个任务中每个实体类型建立原型表征,令模型学习任务之间的先验分布,并通过使用该先验分布的训练结果,使模型在新数据集上取得更出色的成绩。最后通过实验结果表明基于多任务的元学习模型的结果能在基准模型上提升将近百分之四十,进一步证明了上述两种方法的优越性,为少量样本中的细粒度实体分类问题提供了新思路。本文提出的两种方法消除了现有细粒度实体分类数据集之间的鸿沟,也在一定程度上解决了少样本领域中细粒度实体分类的问题。此外,本文提出的方法参加了TAC 2019年知识库构建大赛,并取得了国内第一的成绩,并将方法直接应用到了由中国工程院牵头的中国工程科技知识中心建设项目,为知识库构建发挥了重要的作用。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码港湾 ,原文地址:https://bishedaima.com/lunwen/49208.html