基于实体语义和邻接信息的知识图谱补全方法研究
这是一篇关于表示学习,实体语义,邻接信息,链接预测,三元组分类的论文, 主要内容为知识图谱采用统一结构化的方式对真实世界的丰富语义进行表示,能够高效的对事实知识进行管理和分析。目前,知识图谱在信息检索、智能问答和信息抽取等任务中起到了重要的作用,尽管知识图谱中含有海量的三元组,但是仍然存在不完整的情况,如何在已有知识图谱中对缺失的事实知识进行发掘和补充受到了研究人员的大量关注。近年来,在进行知识图谱补全方法研究中,主要是利用知识表示学习的方法来完成的,在对知识表示的过程中,会出现事实知识语义表示不准确的问题,根据上述问题,本文从知识表示学习的实体语义信息捕获和邻接信息融合两方面开展了研究。首先,针对当前知识图谱表示学习模型对知识图谱内实体语义表示不准确的问题,提出了基于实体语义信息建模的知识表示学习模型(Learning semantics knowledge graph embeddings,LSKE)。采用平面编码的显式建模方式,通过横纵两部分向量联合对实体语义进行表示。引入语义映射矩阵对当前训练三元组内的实体特定语义进行捕捉;利用知识图谱关系之间存在的相似性,构建共享语义矩阵,不同的实体通过与共享语义矩阵进行运算,保留实体间的共享语义。其次,针对三元组在表示学习的训练过程中,忽略了三元组中实体的邻接信息,会出现稀疏实体的语义表示不完整的问题,提出了融合实体邻接信息的知识表示学习模型(Learning context semantics knowledge graph embeddings,LCSKE),以及在负采样时产生对训练过程无用的负例三元组问题,提出了以LCSKE模型为基础的邻接信息负采样方法(neighborhood negative sampling,NNS)。LCSKE模型是在模型LSKE基础上,增加了融合实体邻接信息的辅助手段,利用实体稀疏度确定邻接实体数量,并利用实体和关系组建邻接信息,通过门机制完成实体邻接信息融合。邻接信息负采样方法是在负采样阶段,利用邻接信息优先构建对模型有帮助的负例三元组。最后,在已公开的FB15k-237等数据集上进行了链接预测和三元组分类实验,利用相应的评价指标,和已有的知识表示学习模型进行对比实验,验证LSKE和LCSKE模型以及算法的有效性。
基于实体语义和邻接信息的知识图谱补全方法研究
这是一篇关于表示学习,实体语义,邻接信息,链接预测,三元组分类的论文, 主要内容为知识图谱采用统一结构化的方式对真实世界的丰富语义进行表示,能够高效的对事实知识进行管理和分析。目前,知识图谱在信息检索、智能问答和信息抽取等任务中起到了重要的作用,尽管知识图谱中含有海量的三元组,但是仍然存在不完整的情况,如何在已有知识图谱中对缺失的事实知识进行发掘和补充受到了研究人员的大量关注。近年来,在进行知识图谱补全方法研究中,主要是利用知识表示学习的方法来完成的,在对知识表示的过程中,会出现事实知识语义表示不准确的问题,根据上述问题,本文从知识表示学习的实体语义信息捕获和邻接信息融合两方面开展了研究。首先,针对当前知识图谱表示学习模型对知识图谱内实体语义表示不准确的问题,提出了基于实体语义信息建模的知识表示学习模型(Learning semantics knowledge graph embeddings,LSKE)。采用平面编码的显式建模方式,通过横纵两部分向量联合对实体语义进行表示。引入语义映射矩阵对当前训练三元组内的实体特定语义进行捕捉;利用知识图谱关系之间存在的相似性,构建共享语义矩阵,不同的实体通过与共享语义矩阵进行运算,保留实体间的共享语义。其次,针对三元组在表示学习的训练过程中,忽略了三元组中实体的邻接信息,会出现稀疏实体的语义表示不完整的问题,提出了融合实体邻接信息的知识表示学习模型(Learning context semantics knowledge graph embeddings,LCSKE),以及在负采样时产生对训练过程无用的负例三元组问题,提出了以LCSKE模型为基础的邻接信息负采样方法(neighborhood negative sampling,NNS)。LCSKE模型是在模型LSKE基础上,增加了融合实体邻接信息的辅助手段,利用实体稀疏度确定邻接实体数量,并利用实体和关系组建邻接信息,通过门机制完成实体邻接信息融合。邻接信息负采样方法是在负采样阶段,利用邻接信息优先构建对模型有帮助的负例三元组。最后,在已公开的FB15k-237等数据集上进行了链接预测和三元组分类实验,利用相应的评价指标,和已有的知识表示学习模型进行对比实验,验证LSKE和LCSKE模型以及算法的有效性。
科技文献知识推理技术研究与应用
这是一篇关于科技文献知识图谱,知识推理,关系预测,三元组分类的论文, 主要内容为随着互联网技术飞跃性的发展和进步,通过互联网发布和获取学术资源变得越来越简单和高效。科技文献知识图谱作为一个包含科技文献中语义信息的丰富结构化信息来源在最近的学术研究中受到了广泛的注意。但不同于通用领域知识图谱,由于发表的科技文献数量愈加庞大,这些学术知识图谱中包含了大量不均匀的实体和描述科学概念的关系,因此导致了科技文献知识图谱的不完整。知识推理可以通过知识图谱中已有的信息预测出缺失的部分,或者判断某个三元组的正确性以及是否属于该知识图谱,是一种重要的提高知识图谱质量的方法。本文在科技文献知识图谱的特定背景下对知识推理方法中的关系预测和三元组分类两个关键任务进行研究,主要完成了以下三部分工作:(1)提出了一种改进基于四元数旋转的新型关系预测方法(Novel Scholarly Knowledge Graph Embedding Method,NSKGE)。模型将知识图谱三元组中的实体和关系投射到四元数向量空间,并利用关系旋转将头实体向量转换到尾实体向量附近。此外针对科技文献知识图谱中广泛存在的N-M关系问题,模型增加了嵌入维度以获得更好的特征表示效果,并改进了负采样策略达到减少训练成本的作用。(2)提出了一种基于BERT的新型三元组分类模型(Novel Triple Classification Model,NTCM)。该方法针对传统知识图谱嵌入模型在科技文献知识图谱任务背景下的缺点,将预训练语言模型引入知识推理任务中,将基于BERT的科技文献预训练语言模型SciBERT作为核心编码器结构,增添了实体的类型标签以及关系的同义词标签以解决科技文献知识图谱中的稀疏性问题以及缺乏标准化用语的歧义问题。(3)设计并实现了一套科技文献知识图谱系统。以本文提出的两种知识推理方法作为基础,构建了包括知识抽取、数据规范化、知识存储、知识推理、系统交互和系统管理六个功能模块的科技文献知识图谱系统。本文提出的两种知识推理方法经过对比实验验证,均在MR等指标上具有有效提高,提升了知识推理效果,对科技文献知识图谱的推理研究有一定的参考价值。基于上述两种知识推理方法的科技文献知识图谱系统在组织和管理学术信息、论文推荐等领域具有一定的实用价值。
面向知识图谱补全的嵌入方法研究
这是一篇关于知识图谱补全,知识图谱嵌入,信息量,链接预测,三元组分类的论文, 主要内容为知识图谱是由实体及其关系组成的语义网络结构,是以三元组的形式来描述现实世界中的各种事实,已经成为人工智能应用的重要资源。但是,现有知识图谱往往是不完整的,存在知识缺失现象。因此很多研究旨在对知识图谱进行补全,就是根据已有三元组推理出新的事实三元组并添加到知识图谱中。而知识图谱嵌入技术则是知识图谱补全的最好方法之一,其中以TransE模型为代表的Trans系列翻译模型具有较强的泛化能力,能够在链接预测和三元组分类任务中完成知识图谱补全。Trans系列模型将事实三元组中的实体和关系映射到语义空间中表示为低维稠密向量。然而,在实体建模和负三元组生成过程中仍然存在一些问题,比如实体嵌入向量与关系嵌入向量不够准确、语义表示不足并且负三元组质量低下等。基于上述分析,本文主要研究内容如下:(1)针对TransC模型在嵌入概念实体时出现的部分训练结果与优化目标不符的问题,提出基于信息量IC的知识图谱嵌入方法TransIC。以TransC为基础,利用IC将概念实体建模为球体,其中的概念球体半径均通过IC计算模型得到。有效提高了训练结果的准确性,并深度挖掘了概念在语义层面的信息内容。(2)Trans系列模型需要在训练过程中生成负三元组,而负三元组的质量高低会大大影响模型的嵌入效果和捕获实体特征能力。为了生成高质量负三元组,提出负采样方法ICNS(Information Content Negative Sampling),基于信息量IC计算被替换实体与替换实体之间的语义相似度,并根据语义相似度值设置连续分段阈值选取优质替换实体以提高负三元组质量,有效解决了低质量负三元组带来的训练无效问题。(3)将ICNS采样方法分别与TransE、TransH模型融合得到TransE-ICNS和TransH-ICNS模型,所有负三元组均采用ICNS方式生成;将ICNS方法与TransC融合得到TransC-ICNS模型,用于处理其中子概念-概念(sub Class Of)三元组的负采样,而实例-概念(instance Of)、实例-实例(relational)三元组的负采样方式不作改变。在公开数据集上对所提方法分别进行对比实验,实验结果表明,本文提出的TransIC、TransE-ICNS、TransH-ICNS以及TransC-ICNS模型在链接预测和三元组分类两个知识图谱补全任务中均相比其它模型取得了较好的效果。特别地,TransH-ICNS与TransC-ICNS模型在链接预测的所有指标上都表现显著。
多视角感知的多媒体知识图谱表示学习研究
这是一篇关于知识图谱表示学习,注意力机制,对比学习,链接预测,三元组分类的论文, 主要内容为知识图谱是一种流行的数据结构,主要用于在下游应用中查询和使用的事实知识的表示。知识图谱通常是由(头实体、关系、尾实体)三元组组成的多关系图,尽管这种三元组在组织结构化的事实方面很有效,但它们潜在的符号特性使得大多数的机器学习算法难以处理。为此,知识图谱表示学习旨在将这些符号化实体和关系嵌入到低维的连续向量空间中,以捕获实体和关系的内在结构信息,其为诸如关系抽取、信息检索、问答系统和推荐系统等不同的知识驱动任务提供了一种高效、系统的解决方案。然而,目前的大多数知识图谱表示学习专注于独立地处理三元组中的实体和关系,因此无法捕获围绕三元组的邻域全局的隐藏信息;此外大多数方法还忽视了知识图谱中心实体的多关系邻域异质性属性以及高阶连接结构信息,导致无法捕获实体更准确的语义表示。本文针对上述的两个方面的问题,提出了两种新的知识图谱表示学习方法,主要的研究工作如下所示:(1)针对以往的知识图谱嵌入方法没有考虑中心实体邻域的全局信息,提出了一种端到端的新的知识图谱补全方法图自编码注意力网络(GAEAT),它可以同时编码三元组中实体和关系的特征。具体地说,该模型通过扩展图注意力网络构建了一个三元组自编码器来同时捕获实体和关系的潜在表示。为了证明提出的模型的有效性,在两个真实的公开数据集上评估GAEAT。实验结果表明,GAEAT在知识图谱补全任务方面优于当时现有的知识图谱嵌入模型,从而验证了GAEAT模型算法的有效性。(2)考虑到知识图谱的中心实体节点邻域的异质性和高阶连通性属性,提出了一种新的知识图谱嵌入方法:对比多关系图神经网络知识图谱表示学习模型(CMRG),该模型能够封装实体的局部多关系三元组信息和高阶连通性结构的综合信息特征。具体来说,CMRG对多关系的局部邻接和高阶连通性进行对比编码,从而同时获得实体和关系的潜在表示。实验结果表明,CMRG能有效地对知识图谱中的多类型的结构进行建模,在现有的数据集上的链接预测和三元组分类任务上显著优于的最新基准方法。
基于BERT与知识校验的中文实体关系抽取
这是一篇关于关系抽取,预训练语言模型,命名体识别,远程监督,三元组分类的论文, 主要内容为实体关系抽取是指从自然语言文本中抽取形如(客体,关系,主体)的实体关系三元组,旨在使机器具备从海量文本中自动构建知识的能力;另一方面,预训练语言模型在很多自然语言处理任务上取得了很好的效果。本文工作结合深度双向转换器编码器表示(BERT:Bidirectional Encoder Representations from Transformers),提出了两种解决多关系多实体,中文模式(schema)约束的实体关系抽取的方法。首先本文提出了先关系后实体的层次抽取方案。这是一个两阶段流水线模型,在第一阶段,通过BERT编码器进行关系多标签分类任务;在第二阶段,使用上一阶段预测的关系标签作为先验信息与原始文本拼接输入BERT进行实体识别,采用序列标注方法预测实体标签实现三元组抽取,最后得到实体与关系的匹配三元组。同时借鉴多头选择的思想提出了基于多头选择的联合抽取方案,这是一个端到端的方法,联合实现关系抽取与实体抽取。模型使用BERT作为编码层,后接条件随机场(CRF:conditional random field)用于实体命名体识别任务,最后通过多头选择方法预测输入词序列每个词最有可能的对应头向量和对应关系标签。在SKE中文信息抽取数据集上,通过知识蒸馏和模型集成,上述两种方法在F1指标上对于基线模型有近10个百分点的提升。最后,文章创新性地提出了结合知识库先验信息的知识校验方法。一般的实体关系抽取只利用了目标语料本身的信息,却忽视了知识库中的大量先验信息,如知识库的局部拓扑结构,知识库实体关系的分布信息等。模型第一步借鉴远程监督思想,补充模型未预测出但存在于训练集的三元组;第二步,将筛选高质量三元组任务转换为三元组二分类任务,判断三元组为真的置信度。模型使用XGBoost作为分类器,构造了基于知识库实体关系条件分布SDValidate,基于知识嵌入Trans E三元组评分,深度模型三元组置信度得分,排名等多个特征,最终使模型在F1提升2到4个百分点。同时,采用SHAP值解释了模型的特征重要性。综上所述,本文提出了两种基于BERT预训练语言模型解决多关系多实体抽取任务,同时设计了知识校验模块用于三元组补充与筛选。通过对比实验验证了方法的有效性与普适性,可以运用于问答系统,推荐系统等多个领域中。
基于深度嵌入的知识表示学习方法研究
这是一篇关于知识表示学习,知识图谱,深度嵌入,链接预测,三元组分类的论文, 主要内容为知识表示学习是人工智能研究中的一个重要方向,涵盖了语义、逻辑、推理等多个领域,其目标是将自然语言文本或其他形式的知识转换为机器可识别的形式,以便机器能够利用这些知识来进行推理、决策和问题解答等任务。本文致力于研究知识图谱表示学习的相关嵌入模型,这些模型可以将抽取的知识通过合理的嵌入方式,表示为简洁高效的向量形式,以便于计算机进行处理和分析,同时与知识图谱进行融合,提高知识图谱的表达能力和推理能力。基于翻译的知识图谱表示学习是知识表示学习领域中备受关注的研究方向,其原理是将知识图谱中的实体和关系表示为低维向量,并通过向量之间的几何变换来衡量两者之间的语义相似度和关联程度。然而,大多数模型是基于现有事实直接进行嵌入的,忽略了不同类型对象的差异,同时对于嵌入向量的处理也较为简单,导致向量的表现能力不足。而且,大多数模型也存在无法处理多种复杂关系的短板。本文对知识图谱表示学习方法进行了全面分析,针对现有的表示模型存在的问题,提出以下两种解决方案,并对知识表示模型的相关应用进行探索:(1)现有的基于平移距离的嵌入模型在独立空间中建模实体与关系时,只考虑了关系的不同类型,忽视了实体类型,同时存在无法高效推理反向关系的短板。针对上述问题,本文提出了一种基于实体关系映射矩阵的多模式深度嵌入知识表示模型。在该模型中,首先在考虑多种关系类型的基础上,利用实体关系映射矩阵加入了对于实体类型的衡量;然后引入多模式深度嵌入概念,同时将正向平移几何距离模型、逆向平移几何距离模型和对称关系模型相融合,从而消除了处理反向关系时的缺陷,提高了对称关系的处理效率。实验结果表明,该模型在推理缺失信息方面的能力有了显著提高,并且在处理复杂关系模式方面的能力也有了明显增强,相较于其他的基线模型,该模型具有显著的优势。(2)现有的基于旋转的嵌入模型将实体和关系映射到复数向量空间时,通常会导致复数空间中的实体嵌入向量之间缺少联系,而且嵌入向量表现力不足、实体和关系的旋转灵活度不高。针对上述问题,本文提出了一种基于深度卷积四元数的反向关系旋转嵌入知识表示模型。在该模型中,首先利用四元数扩展复数向量空间,引入表现力更强的超复数表示;然后使用不同的嵌入生成类来为头实体和尾实体生成嵌入向量,在将关系定义为空间中头实体到尾实体旋转的基础上,再引入一个反向关系向量,增强头实体和尾实体之间的关联性;最后,将四元数嵌入使用卷积神经网络进行深度处理,从而提高模型链接预测准确性。实验结果表明,相比于其他基线模型,该模型能够更加合理的表示实体与关系,并能够对复杂关系模式进行有效建模与推理,提升了知识表示的有效性。(3)针对医疗领域中知识表示模型的应用进行了研究。采用本文提出的基于实体关系映射矩阵的多模式深度嵌入模型与基于深度卷积四元数的反向关系旋转嵌入模型,并结合社交平台提取的相关医学研究成果数据集进行了实验,旨在探索两种知识表示模型在链接预测最新医疗研究成果方面的有效性。实验结果表明,本文提出的两种知识表示模型在医学研究成果的链接预测任务中都有出色的表现。因此,在社交平台上利用两种知识表示模型向医生预测推送最新的医学研究成果具有明显的优势。
基于嵌入模型的知识图谱补全方法研究
这是一篇关于知识图谱嵌入,实体描述,关系类别,链接预测,实体分类,三元组分类的论文, 主要内容为随着大数据时代的到来,互联网数据出现了爆炸式增长,知识图谱的规模也变得越来越大,但是数据的增长却使得知识图谱的质量急剧下降,内部信息变的越来越不完善。因此,为了使现有知识图谱更加完善,需要不断地添加新的客观事实进行补全。早期的知识图谱补全工作基本采用人工方式来构建事实三元组并添加到知识图谱中,但是这种方式往往效率低下且对知识图谱的扩展具有很大的局限性,已经无法满足规模日益增大的知识图谱补全工作。因此,设计出一种自动知识图谱补全方法来对知识图谱进行补全具有重要研究和应用价值。最初,利用独热编码对知识图谱中的研究对象进行表示得到了发展,但是这是建立在所有对象相互独立的基础上,会破坏知识图谱内部的结构信息,无法充分利用实体间的语义信息。然而最近几年,基于翻译操作的知识图谱嵌入模型由于将关系表示为实体间的翻译操作而有效地挖据出三元组的结构信息,使得其表现出了强大的有效性和鲁棒性,在知识图谱补全工作中发挥了巨大的作用。但是目前的翻译嵌入模型面临着实体和关系表示能力不足、忽略丰富的附加信息以及负例三元组质量低等一系列问题。针对以上这些问题,本文提出了基于关系路径和实体描述的知识表示方法(Multiple-Path and Entity Description Embedding Model,简称MPED)、基于实体、关系嵌入和关系类别的知识表示方法(Category of Relation Embedied Knowledge Embedding Model,简称CREKE)和基于谱聚类的知识表示方法(Trans E-Spectral Clustering,简称Trans E-SC),并在一定程度上解决了上述问题。本文主要研究工作如下:1)为了弥补基于关系路径信息的知识表示学习方法在实体链接预测上的不足以及解决数据稀疏问题,本文提出了将多步关系路径信息与实体描述信息相结合的知识表示方法MPED,通过将实体描述信息引入基于关系路径的知识表示方法(Modeling Relation Paths for Representation Learning of Konwledge Bases,简称PTrans E)中,并建立实体与关系向量联合学习框架,使得在实体和关系向量都具有更加精确的表示。通过链接预测以及实体分类实验表明相对于只利用关系路径信息的模型以及其对比方法来讲,MPED能够显著提高实体与关系的向量表示的质量。2)对于大部分知识图谱表示学习方法只利用三元组的结构信息而忽略了丰富的关系类别信息这一问题,本文提出了将实体、关系向量表示与关系类别相结合的知识表示方法CREKE,该方法通过将多元高斯混合分布与关系类别分布相结合,为每一个关系类别学习出一个分布式表示,并将基于实体、关系的向量表示和关系类别的分布式表示形成联合学习框架,使用闭环策略进行学习。实体、关系的向量表示与关系类别的分布式表示相互促进,共同学习,使得关系向量表示中包含类别信息。通过链接预测和三元组分类实验验证了CREKE具有一定的有效性,关系类别信息对于知识图谱补全工作具有明显的积极作用。3)为了解决知识嵌入模型在训练过程中使用随机替换方式生成低质量负例三元组进而导致模型训练效率低这一问题,本文提出了一种基于谱聚类的负例三元组生成方式来提高负例三元组的质量,具体来说就是先使用谱聚类算法将所有实体向量进行聚类,使得相似实体处在同一实体簇中,当我们通过替换正例三元组的头、尾实体来生成负例三元组时,需要找到与待替换实体所在簇中相似度最高的实体进行替换,这样才可以得到高质量的负例三元组。我们将这种负例三元组生成方式与Trans E相结合提出了Trans-SC模型。通过链接预测和三元组分类实验,验证了Trans E-SC模型相对于很多基准模型,在多数情况下取得了较好的性能。
面向知识图谱补全的嵌入模型研究
这是一篇关于知识图谱嵌入,多视角学习,相似性负采样,链接预测,三元组分类的论文, 主要内容为随着大数据时代的到来,知识的存储与表示变得尤为重要。知识图谱是知识表示最有效的方式之一,被广泛的应用于智能搜索、智能问答等智能化应用。虽然,现有知识图谱的规模已经十分庞大,但其距离达到知识的完备状态依旧十分遥远。知识图谱的完备程度将直接影响智能化应用的性能好坏。为此,知识图谱补全技术备受关注,已经成为当前的一个研究热点。知识图谱嵌入旨在利用连续的、稠密的、低维的向量来表示知识图谱中的实体和关系,以便使用低维向量进行知识的推理和补全。近年来,基于翻译的模型表现出强大的可行性和鲁棒性,在知识图谱补全任务中实现了最先进的性能。但是现有翻译模型仍存在知识表示不够精确、负例三元组质量较低等不足,为了克服这些不足本文提出了MvTransE与TransE-SNS模型。本文主要研究内容如下:(1)本文提出了一种多视角学习的嵌入模型MvTransE。该模型先从实体的语义和结构角度生成多个平行子图。然后将原始的知识图谱和子图分别嵌入到全局视角空间和局部视角空间。最后利用多视角融合策略整合关系事实的多视角表示。MvTransE解决了现有模型的两个不足之处。第一,TransE、TransH等模型侧重于从全局出发,学习关系事实的全局表示,这样不能区别地学习各种类型的事实。特别是,它造成实体和关系在向量空间中的拥塞,从而降低了实体和关系向量的表示精度。第二,puTransE采用多个平行空间来学习局部事实,它损害了原始知识图谱的全局事实,从而降低了简单关系事实的学习能力。大量实验结果表明,MvTransE取得了最先进的性能。(2)本文提出了一种相似性负采样策略用于生成高质量的负例三元组。该策略先通过K-Means聚类算法将所有实体划分为多个簇。然后从正例三元组中头实体所在的簇中选择一个实体替换头实体,并以类似的方法替换尾实体。我们将相似性负采样策略与TransE相结合得到TransE-SNS。由于相似性负采样策略解决了TransE在训练中会生成大量的低质量负例三元组问题,提高了负例三元组的质量。大量实验结果表明,TransE-SNS的性能相较于TransE具有显著地提升。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设港湾 ,原文地址:https://bishedaima.com/lunwen/56265.html