基于多特征融合的实体对齐研究
这是一篇关于知识图谱,实体对齐,知识表示,长尾实体,特征融合的论文, 主要内容为目前知识图谱被广泛应用于不同的领域场景,由于不同的规范标准和设计需求,知识图谱的规模大小和数据表示都可能不同。而单一的知识图谱所提供的信息可能不足以满足任务需求,因此通常考虑利用实体对齐将多个知识图谱融合为一个大型统一的知识图谱。现有的实体对齐研究方法主要利用知识图谱的结构信息,通过衡量两实体之间的距离判断该实体对是否对齐。然而在不同知识图谱中通常存在异构冗余的问题,并且真实世界中的绝大多数实体是长尾实体,只依赖结构信息会导致实体向量表达性低、信息传播不充分等问题,从而直接影响实体对齐的表现。针对以上问题,本文提出了一种基于多特征融合的实体对齐模型,结合不同实体特征信息以提升实体对齐的准确度,具体研究工作和内容如下:(1)首先本文使用Rotat E模型将知识图谱的结构信息嵌入到复数空间,结合实体担任不同角色的向量表示,以提升实体嵌入的表达能力。其次使用预训练词嵌入BERT模型分别获取实体名称和属性特征的初始向量表示,利用多层图神经网络捕获邻居实体信息以获得更具表达性的名称嵌入。另外,基于属性值嵌入建模实体之间的属性交互特征,充分利用知识图谱的语义信息。最后将结构、名称和属性的实体相似度矩阵动态融合生成一个相似度矩阵来衡量两实体对齐的可信度。在DBP15K三个跨语言数据集上进行对比实验,实验表明本文所设计的模型性能优于其他大部分模型,能够有效提升实体对齐准确度。(2)本文进一步引入了知识图谱补全用于解决长尾实体的问题。结合实体对齐和知识图谱补全以扩充知识图谱的结构信息,迭代训练使得知识图谱补全与实体对齐性能互相增强,进一步提高稀疏知识图谱中的覆盖率。本部分在SRPRS数据集上进行实验,实验证明结合知识图谱补全和实体对齐可以有效地增加三元组数量,减少长尾实体数量。
融合多模态资源的课程知识图谱构建与应用研究
这是一篇关于课程知识图谱,多模态资源,深度学习,实体识别,实体对齐的论文, 主要内容为近年来,随着“互联网+教育”模式的普及,教育领域逐渐积累了海量具有应用价值的课程资源。但不同来源的课程资源之间结构不同、没有建立起相应的联系,难以直观地服务于教学。此外,现有的教材、学习网站等课程知识组织方式单一,多数面向文本,很少整合不同模态间的课程资源去发挥更大的效果,迫切需要人工智能、大数据等新兴技术采集并处理相关的课程资源,为教师、学生群体提供智能服务,持续促进教育应用的智能化。本研究围绕数据结构课程的“多模态课程知识图谱构建”这一核心问题,结合课程知识抽取、多模态课程资源融合、问答系统搭建三部分,开展基于知识图谱的智能教育应用研究,给予学习者多模态的课程资源,降低学习者的学习难度,为教师的教学提供便利。主要研究内容如下:(1)课程知识抽取。以字为切分单位的BERT预训练模型在课程知识抽取的子任务实体识别中表现优异,但其忽略了粗粒度的领域词汇作为整体的语义表示信息,对于数据结构文本中存在大量嵌套实体的识别效果并不好,不利于课程知识抽取任务的实现。针对上述问题,提出动态融合字、词级别词向量的LEBERT-CRF实体识别方法,利用词典适配器将领域词典特征高效地融入BERT模型中,以提升BERT模型对实体词边界的识别效果,更好地适应于课程知识抽取任务。经实验结果证明,LEBERT-CRF模型相较其它主流的实体识别模型表现更好,F1值达到95.47%。(2)多模态课程资源融合。已有研究多利用基于相似度计算的方法对齐百度百科、互动百科知识社区的实体,进而扩充知识图谱的数据来源。但上述方法需要人工设定阈值、语言模型无法学习到深层次的领域语义知识。为了解决上述问题,提出微调BERT词嵌入的实体对齐方法,对齐百度百科、互动百科的多模态资源。首先,通过下游的分类任务微调BERT模型,提升模型预测正确结果的能力;其次,针对数据集正负样本比例不均衡的问题,提出负采样策略,提升模型的准确程度与泛化性能,实验结果证明分类任务性能明显提升,AUC值提升0.29;最后,将优化后的模型应用于实体对齐任务中,利用输出概率进行排序并预测最终对齐的实体对,实验结果优于基于相似度计算的实体对齐方法,F1值达到95.9%。(3)问答系统搭建。如何有效结合问答技术,向学习者提供知识反馈并展示知识点相关的多模态课程资源,是亟需解决的关键问题。基于此,构建基于课程知识图谱的问答系统,通过系统自动化地分析与理解,为学习者提供基于问答的知识反馈支持服务,辅助学习者学习数据结构课程。
面向呼吸科室疾病的知识抽取与对齐
这是一篇关于知识图谱,呼吸科室疾病,知识抽取,实体对齐的论文, 主要内容为大数据时代的发展推动了整个社会对智慧医疗方向的探索,使得智能医疗成为当下众人所关注的焦点,迎合了国民对于智能化医疗服务的迫切需求。如何从海量的医疗文本中抽取关键的知识并加以管理对智能医疗应用的研究具有重大意义,知识图谱的出现有效的解决了这个问题。前期实验室工作中初步构建了医学知识图谱,完成了知识图谱相关规范的定义及从临床医学知识服务系统和医脉通网站抽取知识的工作。经过探讨,我们认为知识图谱的规范定义需要更进一步的丰富与细化。此外,按科室划分抽取知识能够使单一科室的知识更加完备,结合实验室的工作需求和呼吸系统疾病的现状,本文以扩充呼吸科室疾病相关医疗知识为目标,主要开展了以下几项工作:(1)知识图谱规范的重新定义。经对数据源分析,结合实际需求,在原有知识图谱规范中定义的六大类实体基础之上添加了身体部位实体。此外,针对这七大类实体细化了它们之间的语义关系。(2)面向呼吸科室疾病的知识抽取工作。前期工作中主要利用医学词典完成实体抽取,导致抽取的实体存在很多疏漏,本文采用机器学习方法和深度学习方法进行了命名实体识别实验,由于标注数据规模较小,本文基于电子病历进行参数迁移学习,改进了命名实体识别的效果。最后经过关系抽取和属性抽取,完成了对现有呼吸系统疾病相关医疗知识的扩充。(3)实体对齐方法的研究。利用字符串相似性和重定向方法生成候选,分别对无监督和有监督的实体对齐算法进行了实验。无监督方法本文首先尝试了成对实体对齐方法,但该方法不能准确的衡量待对齐实体邻居节点的重要性,因此本文提出了基于图的实体对齐方法,将候选与待对齐实体邻居节点的候选进行构图选取目标对齐实体。此外,本文对基于联合知识嵌入的有监督实体对齐方法进行了探究,通过TransE算法把实体和关系表示成向量,通过计算向量之间的语义距离判断两个实体是否对齐。实验证明,本文提出的基于图的算法达到了最好的效果。
中立RDF知识库构建问题研究与应用
这是一篇关于知识库,资源描述框架,网络采集,信息抽取,图数据库,主题特征,实体对齐的论文, 主要内容为互联网上的大数据给人类生活带来了丰富的信息,人们只需要通过关键字进行搜索,就能获取到相关新闻、资料链接。然而,这种通过点击链接的方式使得人类在面对持续增加的海量数据获取知识与信息时变得十分低效。目前互联网上的信息大多以网页的形式进行存储与发布,通过超链接的形式将文档关联起来,这种方式使得人类可以理解文档中的信息,而计算机却难以对文档中的信息进行理解。为了更好地利用互联网产生的大数据资源,国外已有研究机构从英文维基百科中构建了知识库,如FreeBase, DBPedia等。国内的知识库有百度知心、搜狗知立方及清华XLore等。知识库在知识图谱、信息融合及人工智能问答等研究领域具有重要的应用价值。国外的知识库如FreeBase等提供了公开的资源描述框架数据源,但包含的中文实体数据量较少,如何构建高质量的中文RDF知识库成为目前的研究热点。基于上述背景,本文对基于网络百科构建中文RDF知识库的方法进行了研究,并在以下几个方面开展了工作:1.深入研究了大规模网络百科数据采集技术,分析了数据采集中遇到的具体问题与挑战,结合Spring MVC框架与Scrapy框架构建了一个网络百科数据采集系统,爬取性能稳定且具有良好的人机交互界面。提出了一种代理IP信息自动抽取算法,该方法能够有效抽取代理IP信息,并解决网站的反爬取问题。2.研究了针对网络百科数据实体信息抽取技术,提出了利用RDFS语义信息对抽取数据进行语义标注及RDF数据规范化的方法。研究了RDF数据的图数据库存储方法,开发了基于NEO4J的RDF数据图存储系统,与传统的关系型数据库存储方式进行了比较,结果表明本文实现的存储系统能够满足大规模RDF数据的存储与查询需求。3.深入研究了基于百度百科与互动百科异构数据源构建知识库过程中遇到的实体对齐问题,提出了一种基于实体属性信息及上下文主题特征相结合进行实体对齐的方法,与传统的实体对齐方法进行了比较,结果表明本论文提出的方法优于现有实体对齐方法。4.将大规模网络百科数据采集技术、实体信息RDF转化、存储与SPARQL查询技术以及异构数据源实体对齐方法相结合,设计并实现了一个中文网络百科RDF知识库自动构建系统,该系统能够通过配置采集任务,下载网络百科数据,进行实体数据抽取与RDF转化与存储,从而为外部应用提供实体查询与SPARQL查询的功能。
跨语言商品知识图谱的构建与对齐研究
这是一篇关于商品知识图谱,跨语言,多任务学习,图神经网络,实体对齐的论文, 主要内容为随着电子商务在全球市场不断进行开拓,其中商品知识图谱承担了重要的角色,被广泛应用于平台治理、品牌运营、前端导购等核心业务。由于电商领域存在商品类型繁多、属性体系庞大等特性,商品知识图谱与通用知识图谱存在一定的差异。因此,本文主要研究基于商品属性的商品图谱构建,以及不同语言的商品图谱进行对齐与融合。基于属性的商品图谱主要描述了商品的属性及属性值信息。早期的研究工作采用基于规则的方法,由专家设计领域相关的词汇表来提取商品的属性信息,或者将属性值提取任务视为一种特殊的命名实体识别,但都无法应用于属性体系庞大的真实电商环境。因此,本文的第一个研究工作提出基于属性增强的属性值抽取模型,不仅将属性视作标签类型,同时建模其语义信息,从而能够处理上万级别的属性,甚至是模型从未见过的新属性。同时,本文构建了真实的大规模英文商品数据集,并基于此构建了英文商品知识图谱。电商全球化的版图中包含了很多小语种,这些小语种由于使用人数少、商品数量有限等原因,缺乏相应的标注数据来训练有效的属性值抽取模型,难以构建低资源语言商品图谱。因此,本文的第二个研究工作提出对抗多任务学习模型,利用高资源语言丰富的标注数据来帮助低资源语言模型的训练。模型将高资源语言视为辅助任务,低资源语言视为主任务,采用两个独立的神经网络分别捕获语言相关特征,同时引入对抗学习来提取语言无关的特征。本文在三种低资源语言数据集上进行实验,结果表明本文提出的模型能够有效提升低资源语言属性值抽取的性能,消融实验也证明了多任务学习和对抗学习的有效性。由于商品数据的多样性,不同语言的商品图谱既有交集,也有差异。若能将不同语言的图谱进行对齐与整合,就能极大丰富各图谱的商品信息。因此,本文的第三个研究工作提出属性信息强化的实体对齐模型,根据属性和属性值所承载信息量的不同,分别从属性层面和属性值层面进行不同粒度的信息融合,然后利用图神经网络得到每个商品实体的嵌入,从而计算出与之对齐的商品实体。在前两个工作得到的多语言商品图谱上进行实验,结果表明本文模型能够有效建模商品图谱,实体对齐性能优于所有的基准系统。同时,本文进行了消融实验验证了模型结构的合理性与有效性。本文研究了商品知识图谱领域的几个热门话题,包括高资源语言和低资源语言商品图谱的构建,以及不同语言的图谱进行对齐,并在真实的商品数据集上验证了模型的有效性,促进了商品知识图谱的应用与发展。
基于TransD的跨语言知识图谱实体对齐方法研究
这是一篇关于实体对齐,知识图谱,TransD,边缘嵌入,双向迭代策略的论文, 主要内容为近年,随着互联网的快速发展,越来越多的知识图谱出现,这些知识图谱可能存在内容重复的问题。单一的知识图是知识组织的表示形式,被用来描述现实世界中各种各样的概念,实体或属性,但是研究者也意识到单一的知识图不能满足人们的需求,因此研究人员着手研究跨语言的实体对齐,这可以有效地整合不同的知识图谱,扩大信息内容,减少冗余量,最后形成一个大型的、有清晰逻辑结构的以及内容完备的知识图谱。进行实体对齐的难点是如何判断两个不同形式的知识库中的实体等价。基于翻译模型的跨语言实体对齐方法和基于图神经网络模型的跨语言实体对齐方法是现有的实体对齐方法。而基于翻译模型的跨语言实体对齐方法大多数的文献描述的实体对齐方法一方面是基于Trans E模型,这种模式不适合复杂的关系,如“一对多”或“多对一”,但是在实体之间会存在一对多和多对一以及多对多的复杂关系,没有在跨语言中建立多元关系的模型,同时它们也忽视了多步关系路径信息。另一方面实体还具有多样性和关系也具有内在相关性,另外传统的方法忽略了查找速度的影响,同时大多数的迭代过程默认计算一个方向的实体相似性,这会在进行实体对齐过程中引入错误的目标实体导致传播错误等问题。为了解决上述问题,本文的研究内容如下:(1)针对实体间忽略了多元复杂关系和多步路径信息的问题,本文提出了以TransD为基础的跨语言实体对齐方法(TransDEA)。由于TransD以往只用在单一的知识图谱中,因此本文第一次尝试使用TransD方法处理跨语言实体对齐。由于KG中实体之间存在多步路径信息,因此又尝试改进了TransD方法,利用多步路径信息即利用实体的二阶邻居间的关系加强建立复杂的多元关系,在此基础上又添加了参数共享和自举策略去处理关系三元组,可以更好的处理上述问题。参数共享是将原先已对齐的实体在投影嵌入时表示成同一向量。在真实世界的数据集的实验结果显示了该方法比基准方法是更好的。实验表明,本文提出的模型有助于实体对齐的提高。(2)利用TransD模型实现跨语言实体对齐证明了要比传统的利用Trans E模型的方法更能提高实体对齐的性能。针对实体的多样性和关系的内在相关性问题,本文在TransD的基础上加入了边缘嵌入,为了更好地提高查找速度即在TransDEA模型基础上加入双向迭代策略和重新初始化过程扩大实体种子,因此本文整体提出了融合TransD和边缘嵌入的双向迭代实体对齐方法(Bi Tr DCPAlign),该方法使用双向迭代策略来计算每个实体的等价实体。它是一个半监督学习方法,在进行实体对齐前已经有了对齐的种子,在此基础上双向计算新的等价实体对,然后将其加入到实体对齐种子集中扩大种子集能提高查找速度,重新初始化过程进行寻找新的对齐实体对。Bi Tr DCP-Align在DBP15K数据集上的Hits@k的得分明显提高了,证明了加入边缘嵌入和双向迭代策略以及重新初始化策略更能有效的提高查找速度以及提到实体对齐的效果,并减少了错误的产生。
面向漏洞知识图谱实体对齐的嵌入表示方法研究
这是一篇关于漏洞知识图谱,实体对齐,知识图谱嵌入,图嵌入,文本嵌入的论文, 主要内容为知识图谱下游应用效果极大地依赖于图谱完整性与知识质量,将不同来源的知识图谱进行融合成为了扩充知识图谱的重要手段。实体对齐技术旨在从多源异构的知识图谱中发现描述同一事实的实体对,通过将实体对进行匹配融合,能有效提升图谱完整性、降低数据冗余。目前,研究人员在这类技术上已有多年沉淀,但在网络空间安全等领域高度相关的图谱上的实体对齐研究相对较少。漏洞知识图谱是一类典型的网安领域知识图谱。研究人员不仅能够通过漏洞的各项文本信息进行漏洞的查询与分析,还为后续自动化攻防对抗提供知识支撑,通过挖掘漏洞图谱的结构特征来感知潜在安全风险。漏洞知识图谱构建和完善过程中,为提升知识的完备性,需要将基于不同漏洞库构建的知识图谱彼此融合,实体对齐是图谱融合的关键步骤。然而,在漏洞知识图谱中,实体对齐任务面临下述特有挑战:(1)漏洞图谱中实体数量众多,但关系种类相对较少。如果基于通用嵌入表示方法学习实体特征,则会有大量不匹配实体得到相似特征表示,因此需要设计专门适用于漏洞图谱的知识图谱嵌入方法以生成恰当的实体向量表示。(2)漏洞图谱对齐任务需同时处理多语言、文本异构、结构异构、数据缺失等图谱异构问题,需要构建多维度、多视图的统一对齐模型。为解决上述挑战,本文面向漏洞知识图谱实体对齐任务,主要工作如下:(1)针对漏洞知识图谱嵌入问题,提出了基于潜在关系挖掘的知识图谱嵌入方法PR-KGE。在不引入额外信息的情况下,发现图谱中的模糊实体与潜在的缺失关系,并利用这些信息来提升图谱嵌入质量。实验表明该方法学习的图谱嵌入空间更加合理,有效提升了链接预测准确率,且该方法同样适用于通用图谱。(2)针对漏洞知识图谱实体对齐任务,提出了多视角交互的实体对齐框架TG-INT。综合多维度信息,以多视图方式完成漏洞图谱实体对齐。实验结果表明,该框架不仅有效提升了漏洞图谱实体对齐的准确性,在通用知识图谱对齐任务上也能实现更优效果。(3)基于上述技术,实现了面向漏洞知识图谱的实体对齐系统。该系统能导入不同漏洞图谱,自动化实现实体对齐任务,并输出经过实体对齐后更加完整的漏洞知识图谱。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设货栈 ,原文地址:https://bishedaima.com/lunwen/46285.html