纺织产业知识图谱平台设计与实现
这是一篇关于产业知识图谱,知识图谱构建,图表示学习,平台开发和部署的论文, 主要内容为知识图谱是一类语义网络,通过对现实生活中的实体、属性以及关系等概念进行抽象和建模,从而将不同的信息融合到一个统一的图结构中。知识图谱可分为通用知识图谱和领域知识图谱,前者面向开放域和通用场景,如各类百科知识图谱;后者为面向某一特定行业或专有领域。产业知识图谱属于领域知识图谱的一种,旨在通过对某一产业相关的实体和关系进行建模,从产业链和产业结构的角度进行更深层次的信息挖掘,从而优化产业链和结构,提升产业效率和生产水平。本文面向纺织产业,从互联网公开的工商信息以及纺织行业百科中收集数据,从产业链的角度进行建模,构建纺织产业知识图谱,挖掘纺织产业隐含信息,并以用户友好的方式进行相关信息的展示为产业发展提供参考。本文重点研究产业知识图谱的构建方法以及面向产业链的知识图谱图表示学习,目标是以较低成本构建一个高质量的产业知识图谱以及图谱节点表示,并形成可延伸至其他产业的方法。此外,本文还通过相关技术和工具设计并实现了纺织产业知识图谱平台,最终完成部署。本文主要工作如下:(1)设计关于产业知识图谱的构建框架。通过将百科域和产业域纳入产业知识图谱构建,以较小代价提高产业知识图谱的知识质量和完整度,同时也为后续的图表示学习提供充分数据基础。(2)构建纺织产业知识图谱。本文采用基于Selenium自动化测试工具从互联网公开的中文百科网站以及企业工商信息网站进行数据采集,并从纺织产业链的角度出发设计本体模型,基于Neo4j图数据库进行知识图谱的持久化存储。(3)基于图对比的知识图谱节点表示学习。本文通过使用预训练语言模型通过产业链分类的方式将节点特征初始化转化为文本分类任务,随后通过GNN进一步融入节点对于图结构的拓扑结构信息,并且为了缓解预训练语言模型BERT的各向异性问题,引入了图对比学习,从而获得融入语义信息、拓扑信息、以及节点间对比信息,学习较为高质量的图谱节点表示。(4)设计、实现和部署纺织产业知识图谱平台。基于React.js和Fast Api框架,设计并实现了纺织产业知识图谱平台,提供纺织产业知识图谱查询,管理等功能。使用Docker对平台各功能部件进行容器划分和配置,实现对于平台的部署。
面向知识图谱构建的知识图谱补全和实体对齐优化方法的研究
这是一篇关于知识图谱,知识图谱构建,知识图谱补全,实体对齐,小样本的论文, 主要内容为知识图谱不同于传统的数据库,是一种存储结构化知识(三元组)的语义知识库。知识图谱由节点和边构成,节点表示三元组中的实体,边为三元组中的关系。目前,知识图谱在语义搜索、智能问答和机器阅读等众多人工智能领域中得到了广泛的应用,成为了人工智能领域中的基础性研究。然而,数据稀疏、知识不完备等局限成为了制约知识图谱进一步发展的重要因素,进而严重影响了知识图谱在各个领域的应用效果。因此,通过知识图谱补全和实体对齐融合知识图谱成为了知识图谱领域内的研究热点。通过构建知识图谱及融合知识图谱提高知识图谱的完备性是解决问题的关键步骤,然而这两个工作仍面临着一些挑战:一方面,数据信息来源多种多样,需要处理各类型数据库中复杂的表数据,需要定义、更新以及维护半结构化数据中获取的知识,以及需要考虑准确性前提下抽取文本中的知识;另一方面,数据命名模糊,数据丢失,以及数据格式不一致等问题都会不同程度的影响数据质量。因此,数据获取困难,获取质量难保证的限制下,知识图谱面临着三元组实例稀疏和不完整的挑战。针对上述的问题,本文展开了面向知识图谱构建的知识图谱补全和实体对齐优化方法的研究。通过构建基于Bert的小样本知识图谱补全模型,优化三元组元素的表示,减少知识图谱补全在小样本数据集下的限制,提高小样本下知识图谱补全的能力。提出面向小样本实体对齐的多核学习方法,引入核学习模型,构建实体特征向量和关系向量的映射,基于映射通过关系向量描述未见过的实体特征向量,达到在小样本三元组情况下准确匹配实体的目的。两个模型的最终目的都是在小样本三元组情况下增强知识图谱的完备性。本文主要研究工作如下:(1)提出并实现了基于Bert的小样本知识图谱补全模型。当前知识图谱补全模型大多将知识图谱中三元组的元素嵌入到某一低维的向量空间,通过学习现有的三元组向量表示来评估知识图谱内未含有的三元组的可靠性。然而,大多数知识图谱嵌入模型使用知识图谱中数据量丰富的三元组内的结构信息,这受到了知识图谱中关系呈现为长尾分布的影响。针对这一问题,本文提出了基于Bert的小样本知识图谱补全模型B-Gmatching。该模型对传统知识图谱补全模型GMatching进行优化,使用预训练的语言表征模型Bert作为获取实体和关系表示模型,丰富实体和关系表示的语义信息。实验表明,本模型对比GMatching以及RESCAL、Trans E、Dist Mult和Compl Ex这些基线模型平均相对提高为10%。(2)提出并实现面向小样本实体对齐的多核学习方法。现有的基于嵌入式方法在实体对齐研究工作仅使用实体的一种或两种类型的属性信息,忽略了其他的属性信息;并且这些方法通常依赖于现有的已对齐的三元组实例作为训练数据,小样本训练大大降低了实体对齐的准确性。针对上述局限性,本文提出了面向小样本实体对齐的多核学习方法,将从知识图谱三元组中对实体提取的特征向量与该三元组中的关系向量关联起来,通过将未见过的三元组中实体对映射到的关系向量来匹配特征向量,实现实体对齐。在此想法上进一步提出了自适应聚类算法,由于对知识图谱所有关系学习一个映射,不能很好的突出关系的属性信息,描述实体对的信息粒度较粗糙,影响实体对齐的效果。因此,我们提出了一个面向小样本实体对齐的聚类算法和多核学习的联合模型,通过聚类算法对数据进行标记,作为多核学习方法的输入学习映射,实现小样本实体对齐任务。通过实验证明,使用Trans E获取向量表示的数据集中,对比传统的聚类模型K-means和多核学习的联合模型,本文算法的准确率提高了18%到29%,使用Complex E获取向量表示的数据集中,本文算法的准确率增加了1.2倍到2.4倍。
面向网络安全知识图谱构建的信息抽取方法研究
这是一篇关于网络安全知识图谱,信息抽取,网络威胁情报,知识图谱构建的论文, 主要内容为网络威胁情报通过对威胁信息的收集、整理和分析为构建网络安全防御框架提供了新的理论基础。随着威胁信息的不断增加,网络威胁情报数据呈现出多源、异构、海量以及碎片化的特点,使得利用威胁情报构建防御体系时面临着难以及时分析、不同情报之间难以关联融合的问题。针对这一问题,知识图谱技术可以将多源碎片化的威胁情报进行关联融合分析,以帮助安全专家更好的防御网络安全威胁。信息抽取作为构建网络安全知识图谱的关键环节,直接影响到网络安全知识图谱的质量和可用性。因此,本文从信息抽取的两个子任务命名实体识别和关系抽取两方面出发开展面向网络安全知识图谱构建的信息抽取方法研究。研究内容如下:(1)基于提示学习技术提出一种网络安全实体识别方法。实体识别是信息抽取环节的基本任务,旨在标记威胁情报文本中与威胁相关的概念。该方法以Bidirectional and Auto-Regressive Transformers(BART)模型为基础,将命名实体识别任务建模为预训练语言模型排序问题。利用不同尺寸的滑动窗口解决网络安全实体识别任务中实体嵌套及其边界难以确定的问题。使用原始文本输入以及由待识别实体片段所填充的提示模板作为BART模型的源序列和目标序列。之后,依据BART模型对不同序列的概率分数计算的结果完成网络威胁情报中的实体类型识别。在模板构建的过程中,本文设计了人工方法和BART模型自动生成方法来寻找匹配网络安全文本的最佳模板。此外,针对不同提示模板训练的模型,利用集成学习方法使不同模板对训练时遗漏的知识进行互补,从而进一步优化实体识别的精确率。最后,通过理论阐述和实验分析证明了模型的有效性。(2)基于 Bidirectional Encoder Representation from Transformers(BERT)模型和语义特征融合提出一种实体关系抽取方法。知识三元组是知识图谱的最小组成单元,实体关系抽取通过将不同威胁实体之间的关系抽取出来,以构建<头实体,关系,尾实体>三元组。本文将关系抽取任务建模为多分类问题。考虑到网络安全实体关系识别过程中容易受到噪声词的影响,本文利用最短依存路径和实体掩盖方法抽象出网络安全文本的外部语义特征,并将其融合作为BERT模型的输入。之后,利用BERT模型生成具有上下文语义信息的词嵌入向量。在此基础上,引入卷积神经网络捕捉局部特征,利用不同视野下的语义特征确定网络安全实体之间的关系。最后,通过消融实验和对比实验验证了所提方法的有效性。(3)基于UCO(Unified Cybersecurity Ontology)模型和本文三、四章所提出的方法,设计知识图谱构建框架。通过爬虫技术收集多源异构的威胁情报文本数据,并设计规则对原始数据进行清洗生成网络安全文本语料库。根据实体识别模型和关系抽取模型对威胁情报内容进行信息抽取,并将其中蕴含的知识表述生成三元组,同时设计实验验证了本文方法生成知识图谱的可用性。
面向网络安全知识图谱构建的信息抽取方法研究
这是一篇关于网络安全知识图谱,信息抽取,网络威胁情报,知识图谱构建的论文, 主要内容为网络威胁情报通过对威胁信息的收集、整理和分析为构建网络安全防御框架提供了新的理论基础。随着威胁信息的不断增加,网络威胁情报数据呈现出多源、异构、海量以及碎片化的特点,使得利用威胁情报构建防御体系时面临着难以及时分析、不同情报之间难以关联融合的问题。针对这一问题,知识图谱技术可以将多源碎片化的威胁情报进行关联融合分析,以帮助安全专家更好的防御网络安全威胁。信息抽取作为构建网络安全知识图谱的关键环节,直接影响到网络安全知识图谱的质量和可用性。因此,本文从信息抽取的两个子任务命名实体识别和关系抽取两方面出发开展面向网络安全知识图谱构建的信息抽取方法研究。研究内容如下:(1)基于提示学习技术提出一种网络安全实体识别方法。实体识别是信息抽取环节的基本任务,旨在标记威胁情报文本中与威胁相关的概念。该方法以Bidirectional and Auto-Regressive Transformers(BART)模型为基础,将命名实体识别任务建模为预训练语言模型排序问题。利用不同尺寸的滑动窗口解决网络安全实体识别任务中实体嵌套及其边界难以确定的问题。使用原始文本输入以及由待识别实体片段所填充的提示模板作为BART模型的源序列和目标序列。之后,依据BART模型对不同序列的概率分数计算的结果完成网络威胁情报中的实体类型识别。在模板构建的过程中,本文设计了人工方法和BART模型自动生成方法来寻找匹配网络安全文本的最佳模板。此外,针对不同提示模板训练的模型,利用集成学习方法使不同模板对训练时遗漏的知识进行互补,从而进一步优化实体识别的精确率。最后,通过理论阐述和实验分析证明了模型的有效性。(2)基于 Bidirectional Encoder Representation from Transformers(BERT)模型和语义特征融合提出一种实体关系抽取方法。知识三元组是知识图谱的最小组成单元,实体关系抽取通过将不同威胁实体之间的关系抽取出来,以构建<头实体,关系,尾实体>三元组。本文将关系抽取任务建模为多分类问题。考虑到网络安全实体关系识别过程中容易受到噪声词的影响,本文利用最短依存路径和实体掩盖方法抽象出网络安全文本的外部语义特征,并将其融合作为BERT模型的输入。之后,利用BERT模型生成具有上下文语义信息的词嵌入向量。在此基础上,引入卷积神经网络捕捉局部特征,利用不同视野下的语义特征确定网络安全实体之间的关系。最后,通过消融实验和对比实验验证了所提方法的有效性。(3)基于UCO(Unified Cybersecurity Ontology)模型和本文三、四章所提出的方法,设计知识图谱构建框架。通过爬虫技术收集多源异构的威胁情报文本数据,并设计规则对原始数据进行清洗生成网络安全文本语料库。根据实体识别模型和关系抽取模型对威胁情报内容进行信息抽取,并将其中蕴含的知识表述生成三元组,同时设计实验验证了本文方法生成知识图谱的可用性。
垂直领域知识图谱构建的关键技术研究
这是一篇关于知识图谱构建,垂直领域,命名实体识别,知识表示的论文, 主要内容为知识图谱(Knowledge Graph)是Google于2012年提出的一种高效的知识表达模型。它使用一系列字符串符号映射于真实世界中存在的各种实体或概念中,然后以这些实体或概念间的关联关系为连接符,将不同类型的信息连接在一起,从而构成一张巨大的语义网络图。与传统的信息管理方式相比,知识图谱能够帮助人们更快速有效地获取所需的知识间的逻辑关系,有利于知识间智能推理的实现。其中,垂直领域知识图谱面向特定的行业领域,能够被应用于搜索引擎、智能问答、知识挖掘和决策支持等业务中。因此,其构建技术的研究具有重要意义。本文在调研和分析现有知识图谱构建方法的基础上,研究基于多种数据源构建中文垂直领域知识图谱,并对一些已有的知识图谱构建关键技术提出改进方案。论文的主要贡献包括:1.对于知识抽取中的中文垂直领域命名实体识别任务,本文在经典的字粒度Bi-LSTM-CRF命名实体识别模型基础上,针对中文垂直领域特点,提出了创新性的改进方案。其中,基于注意力的中文词信息增强模型能够通过注意力机制训练出字所属的每个词对字义的贡献程度比,将词向量信息按其语义贡献比例加入字粒度的命名实体识别模型中。另外,还针对汉字的特点提出了一种字形特征融合方案,以增强未登录字的识别效果。本论文将改进方法与经典模型应用于中文电子病历命名实体识别任务,验证结果表明该方法相比经典的字粒度Bi-LSTM-CRF模型取得了较大的识别准确性提升。2.提出融合知识图谱实体描述文本信息的知识图谱表示学习方法。该方法使用Doc2Vec算法得到实体描述文本向量,并将该向量使用单隐层的神经网络与翻译模型进行融合。然后本论文将所述方法应用于所构建的医疗知识图谱中,通过对比实验验证了算法的有效性。3.设计了垂直领域知识图谱构建的整体架构方案,并以医疗领域知识图谱的构建为例,设计并实现了从知识抽取,知识融合,知识存储到知识可视化的一系列具体方案。方法具有较高的可行性,且对于其它垂直领域有较高的普适性。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码助手 ,原文地址:https://bishedaima.com/lunwen/49201.html