基于知识图谱和图神经网络的网络安全态势评估方法研究
这是一篇关于网络安全态势评估,态势要素,知识图谱,GCN,MLP的论文, 主要内容为随着互联网和移动通信技术的不断发展与应用,网络安全问题日益成为互联网时代中最大的挑战之一。由于云计算、大数据、物联网和5G等新技术带来的影响愈趋重要,且硬件设备和网络系统的急剧增多,使得网络安全的暴露面不断增大。此外,网络攻击不断向规模巨大化、形态复杂化、攻击目标多样化等趋势演变,降低了常规防御工具抵挡复杂网络攻击的效果。这些情况导致网络暴露在危险形势之下。网络安全态势评估技术能够通过获取网络数据中的重要态势因素,评估当前的网络安全状况,及时发现和预防安全威胁,从而降低安全事件对组织的影响和损失。网络安全态势评估技术是当前最受青睐的网络安全主动防御技术,已经成为网络安全领域的研究热点。针对传统网络安全态势评估方法难以有效整合与提取态势要素信息,未充分学习特征的空间结构信息,导致评估性能受限的问题,主要研究工作如下:(1)针对当前网络安全态势评估方法对评估结果的可解释性差,以及态势要素无法高效提取的问题,设计基于知识图谱的网络安全态势评估模型,该模型由数据采集层、数据处理层、图谱构建层和智能态势评估层构成。其中,图谱构建层和智能态势评估层是模型的核心部分。最后,根据提出的模型设计了相应原型系统,并对原型系统的结构进行详细描述。(2)针对具有高维、冗余、异构等特点的网络安全态势数据缺乏统一知识描述框架,导致大规模冗余数据影响态势评估效率和精度的问题,提出一种网络安全态势要素知识图谱构建方法。该方法首先从攻击、漏洞、设备和流量四个维度建立网络安全态势要素本体,然后根据本体构建出网络安全态势要素知识图谱,并将知识图谱数据存储于Neo4j图数据库中。最后,分别对Neo4j、MySQL和MongoDB数据库进行查询效率对比实验,比较不同数据库对单条查询和遍历查询的查询用时,结果显示Neo4j图数据库查询效率最高,性能稳定,能高效存储和查询知识图谱数据。(3)由于当前的网络安全态势评估方法忽略了态势要素之间的关联关系,评估过程中缺乏对态势特征中空间结构信息的表征学习,导致态势评估的准确率受限。因此,提出一种结合图卷积神经网络(Graph Convolutional Network,GCN)和多层感知机(MLP,Multilayer Perceptron)的网络安全态势评估方法。该方法首先使用GCN学习态势要素的空间结构特征,然后使用MLP加强对少量类别样本的节点特征学习,最后使用池化层进行融合节点特征得到评估结果。通过对比实验,结果表明本文提出的MLP-GCN方法优于其他对比方法,提高了网络安全态势评估的准确率。
一种融合序列模型和依赖模型的实体关系抽取技术研究与实现
这是一篇关于信息抽取,实体关系抽取,lattice LSTM,GCN,模型融合的论文, 主要内容为伴随信息化时代的到来,文本信息出现爆炸型增长,如何从海量文本信息中迅速找到真正需要的信息,避免把大量时间和精力浪费在无效或冗余信息的过滤和整理上是人们面临的一个迫切需要解决的问题。信息抽取研究正是在这种背景下应运而生。而实体关系抽取能够从自然语言文本中抽取出实体对之间的语义关系,是信息抽取、自然语言理解、信息检索等领域核心任务和重要环节。针对信息抽取中的中文实体关系抽取,本文深入探索序列模型和依赖模型两种模型,以及两种模型融合的相关抽取方法。针对序列模型,本文在lattice LSTM模型的基础上,进一步挖掘有效特征,提升lattice LSTM模型性能。此外,还采用BiLSTM和CNN的方法进一步挖掘实体信息。针对依赖模型,本文采用字建图消除基于依存句法树建图过程中存在的过度依赖NLP工具和错误传播的问题,并提出了多种建图方案进行对比,此外,为了降低噪音边干扰,在图中引入了新的门结构和图注意力模型。序列模型虽然能够很好的利用词序信息,但是不能从扁平的句子中捕获词之间的依赖关系,特别是当句子中存在从句比较长或者有着复杂的范围限定的情况时,而在这方面洽洽是依赖模型的优势,因此序列模型和依赖模型具有很好的互补性,本文进一步提出了将基于lattice LSTM的序列模型和基于GCN的依赖模型融合,并提出了特征级串行融合和特征级并行融合两种融合方案。在此基础上,综合所有研究工作,实现了一个基于Browser/Server模式的Web端的实体关系抽取系统,并采用Kubernetes微服务架构对整个系统进行部署。
面向中文电子病历的事件抽取研究
这是一篇关于电子病历,事件抽取,BiLSTM,GCN,知识图谱的论文, 主要内容为随着医疗大数据时代的到来和电子病历的迅速普及,如何从中文电子病历的自由文本中提取出相应的事件要素成为当前的研究热点。医疗事件抽取作为临床电子病历结构化的重要手段,可以从无结构医疗文本中抽取指定元素,进而为医学知识图谱构建和辅助诊疗系统开发提供数据支持。本文针对中文电子病历事件抽取技术展开研究,主要工作如下:(1)针对传统单分类器在特征提取中忽略了关键属性扰动及实体相关性的问题,本文在Bi LSTM(Bi-directional Long Short-Term Memory)的基础上引入了CLN(Conditional Layer Normalization)来干预上下文特征学习,进而提出了一种基于Ro BERTa-CLN-Bi LSTM-CRF预训练语言模型的医疗事件抽取方法,其中Ro BERTa模型对样本进行词向量表征,条件归一化(CLN)将核心词作为条件融入到样本表示中对上下文特征学习进行干预,利用双向长短期记忆网络(Bi LSTM)编码得到样本的隐状态向量和特征矩阵,条件随机场(CRF)解码隐层输出,实现句子级标注序列的联合预测。(2)基于图神经网络的事件抽取方法未考虑文本中蕴含的时序信息及篇章级实体词间的依存关系,由此本文在Bi LSTM的基础上引入改进的图卷积网络(GCN,Graph Convolutional Network)来融合中文电子病历语料库的全局关联特征,从而提出了基于Bi LSTM-GCN的医疗事件抽取模型,该模型利用Bi LSTM网络获取包含上下文序列特征的隐向量表示,然后结合句内依存关系、词的共现、词与文档的TF-IDF(词频-逆文本指数)值来构建语料库的全局异构图,通过两层图更新得到更丰富的节点表示,最后采用注意力机制来分配对不同实体的关注度使用交叉熵作为损失函数,将注意力层得到的节点表示通过softmax函数进行概率预测。(3)以结构化医疗数据为基础,结合图数据库技术、前后端交互技术,搭建了基于知识图谱的医疗关系可视化及问答系统。系统针对临床病历中的诊疗方法及用药推荐进行图谱展示,并且对用户的提问通过分词匹配相应的分支图谱进行解答,从而达到辅助诊疗的目的。本文主要针对中文电子病历提出了核心词干预的医疗事件联合抽取模型,引入图卷积网络来融合全局关联特征的医疗事件抽取模型,并且构建了医疗知识图谱及问答系统用以辅助诊疗。整体工作对中文电子病历事件抽取研究提供了参考价值。
面向开放世界的知识图谱补全研究
这是一篇关于开放世界知识图谱,胶囊网络,异构信息网,GCN,链接预测,实体分类,知识图谱补全的论文, 主要内容为知识图谱是一种典型的多关系结构,由许多实体和关系组成。现有的知识图谱大多都非常稀疏,还不够完整。因此知识图谱补全任务应运而生,旨在通过原有知识图谱中的事实对那些可能存在的隐藏关系进行预测。常见的知识图谱补全方法,采用嵌入表示学习的模型借助三元组中实体、关系嵌入表示向量的近距离假设对隐藏关系进行预测。这类方法针对封闭世界知识图谱补全能发挥出较好的效用,但是针对开放世界知识图谱中的新实体类型与相关关系的预测效果较差。为此针对上述开放世界知识图谱补全中的问题,本文提出了一种面向开放世界知识图谱的胶囊网络模型Caps-OWKG。模型对原有知识图谱进行编码获得实体的结构性向量,又对实体的描述信息进行编码获得实体的描述性向量,将两种向量融合后得到新的表示向量,并经过胶囊网络处理后,获得三元组真实性的概率。Caps-OWKG通过新实体的描述信息作为桥梁与原始知识图谱建立联系,这种方法有效但还略显单一,没有更好的挖掘新实体与原始知识图谱的潜在关系。为此,本文构建了一个包括开放世界知识图谱中所有实体、关系和描述的异构信息网络,并提出了一种基于异构信息网络的知识图谱表示学习模型,利用图卷积神经网络对异构信息网中的节点进行编码,再利用两个不同的解码层完成新实体的分类和预测两个任务,实现对知识图谱的补全。
融合GCN与BERT的烟草病虫害命名实体识别研究
这是一篇关于命名实体识别,GCN,深度学习,烟草病虫害,BERT的论文, 主要内容为烟草在种植的过程中常常会遭受病虫害的影响,烟草病虫害防治的好坏将直接对烟草的产量和质量产生一定的影响。烟草在不同时期遭遇的各种病虫害问题有对应不同的防治方法,且病虫害种类众多,防治方法极其复杂多样,有海量的烟草病虫害防治的非结构化数据散乱存在于文本中,大量的防治信息没能得到提炼总结,从而影响和制约了烟草病虫害专业化、高效化防治水平的进一步提升,从烟草病虫害领域语料中提取病虫害对应的防治信息来帮助种植人员更好地解决病虫害问题具有重要的现实意义,而命名实体识别就是其中最为关键的基础任务。目前还没有对烟草病虫害领域进行命名实体识别的研究,该领域的语料有实体简称或实体表示复杂多样等特点,利用深度学习的方法对烟草病虫害文本中的关键信息进行命名实体识别研究,提高实体识别的准确度。本文以烟草病虫害为研究对象,针对烟草病虫害领域的识别面临着实体字符较长、长序列依赖、实体简称等问题,提出了融合GCN与BERT的命名实体识别方法。首先,构建烟草病虫害领域数据集,为本文研究奠定数据基础。其次,对命名实体识别模型进行优化改进,通过BERT将文本向量化,并引入了双向门控循环单元、图卷积神经网络、多头自注意力机制以及条件随机场,提出了一种基于BERT-Bi GRU(GCN)-MHSA-CRF的命名实体识别方法。然后,通过将本文模型运用在四个公开数据集上进行对比实验,验证本文模型的泛化性、有效性及稳定性。最后,开发设计出一个基于B/S架构的烟草病虫害在线命名实体识别系统,将识别结果进行可视化展示,验证了实际应用的可行性。本论文的研究方法为烟草病虫害的命名实体识别提供了一种新的思路,对提高烟草病虫害领域的命名实体识别效果具有一定的指导意义,为后续烟草病虫害防治相关的信息抽取、问答系统、文本分类、知识图谱构建等下游工作提供底层技术支撑,帮助烟草种植人员更加高效准确的找到对应的病虫害防治方法,具有非常广泛的应用前景及较强的现实意义。
融合GCN与BERT的烟草病虫害命名实体识别研究
这是一篇关于命名实体识别,GCN,深度学习,烟草病虫害,BERT的论文, 主要内容为烟草在种植的过程中常常会遭受病虫害的影响,烟草病虫害防治的好坏将直接对烟草的产量和质量产生一定的影响。烟草在不同时期遭遇的各种病虫害问题有对应不同的防治方法,且病虫害种类众多,防治方法极其复杂多样,有海量的烟草病虫害防治的非结构化数据散乱存在于文本中,大量的防治信息没能得到提炼总结,从而影响和制约了烟草病虫害专业化、高效化防治水平的进一步提升,从烟草病虫害领域语料中提取病虫害对应的防治信息来帮助种植人员更好地解决病虫害问题具有重要的现实意义,而命名实体识别就是其中最为关键的基础任务。目前还没有对烟草病虫害领域进行命名实体识别的研究,该领域的语料有实体简称或实体表示复杂多样等特点,利用深度学习的方法对烟草病虫害文本中的关键信息进行命名实体识别研究,提高实体识别的准确度。本文以烟草病虫害为研究对象,针对烟草病虫害领域的识别面临着实体字符较长、长序列依赖、实体简称等问题,提出了融合GCN与BERT的命名实体识别方法。首先,构建烟草病虫害领域数据集,为本文研究奠定数据基础。其次,对命名实体识别模型进行优化改进,通过BERT将文本向量化,并引入了双向门控循环单元、图卷积神经网络、多头自注意力机制以及条件随机场,提出了一种基于BERT-Bi GRU(GCN)-MHSA-CRF的命名实体识别方法。然后,通过将本文模型运用在四个公开数据集上进行对比实验,验证本文模型的泛化性、有效性及稳定性。最后,开发设计出一个基于B/S架构的烟草病虫害在线命名实体识别系统,将识别结果进行可视化展示,验证了实际应用的可行性。本论文的研究方法为烟草病虫害的命名实体识别提供了一种新的思路,对提高烟草病虫害领域的命名实体识别效果具有一定的指导意义,为后续烟草病虫害防治相关的信息抽取、问答系统、文本分类、知识图谱构建等下游工作提供底层技术支撑,帮助烟草种植人员更加高效准确的找到对应的病虫害防治方法,具有非常广泛的应用前景及较强的现实意义。
一种融合序列模型和依赖模型的实体关系抽取技术研究与实现
这是一篇关于信息抽取,实体关系抽取,lattice LSTM,GCN,模型融合的论文, 主要内容为伴随信息化时代的到来,文本信息出现爆炸型增长,如何从海量文本信息中迅速找到真正需要的信息,避免把大量时间和精力浪费在无效或冗余信息的过滤和整理上是人们面临的一个迫切需要解决的问题。信息抽取研究正是在这种背景下应运而生。而实体关系抽取能够从自然语言文本中抽取出实体对之间的语义关系,是信息抽取、自然语言理解、信息检索等领域核心任务和重要环节。针对信息抽取中的中文实体关系抽取,本文深入探索序列模型和依赖模型两种模型,以及两种模型融合的相关抽取方法。针对序列模型,本文在lattice LSTM模型的基础上,进一步挖掘有效特征,提升lattice LSTM模型性能。此外,还采用BiLSTM和CNN的方法进一步挖掘实体信息。针对依赖模型,本文采用字建图消除基于依存句法树建图过程中存在的过度依赖NLP工具和错误传播的问题,并提出了多种建图方案进行对比,此外,为了降低噪音边干扰,在图中引入了新的门结构和图注意力模型。序列模型虽然能够很好的利用词序信息,但是不能从扁平的句子中捕获词之间的依赖关系,特别是当句子中存在从句比较长或者有着复杂的范围限定的情况时,而在这方面洽洽是依赖模型的优势,因此序列模型和依赖模型具有很好的互补性,本文进一步提出了将基于lattice LSTM的序列模型和基于GCN的依赖模型融合,并提出了特征级串行融合和特征级并行融合两种融合方案。在此基础上,综合所有研究工作,实现了一个基于Browser/Server模式的Web端的实体关系抽取系统,并采用Kubernetes微服务架构对整个系统进行部署。
融合GCN与BERT的烟草病虫害命名实体识别研究
这是一篇关于命名实体识别,GCN,深度学习,烟草病虫害,BERT的论文, 主要内容为烟草在种植的过程中常常会遭受病虫害的影响,烟草病虫害防治的好坏将直接对烟草的产量和质量产生一定的影响。烟草在不同时期遭遇的各种病虫害问题有对应不同的防治方法,且病虫害种类众多,防治方法极其复杂多样,有海量的烟草病虫害防治的非结构化数据散乱存在于文本中,大量的防治信息没能得到提炼总结,从而影响和制约了烟草病虫害专业化、高效化防治水平的进一步提升,从烟草病虫害领域语料中提取病虫害对应的防治信息来帮助种植人员更好地解决病虫害问题具有重要的现实意义,而命名实体识别就是其中最为关键的基础任务。目前还没有对烟草病虫害领域进行命名实体识别的研究,该领域的语料有实体简称或实体表示复杂多样等特点,利用深度学习的方法对烟草病虫害文本中的关键信息进行命名实体识别研究,提高实体识别的准确度。本文以烟草病虫害为研究对象,针对烟草病虫害领域的识别面临着实体字符较长、长序列依赖、实体简称等问题,提出了融合GCN与BERT的命名实体识别方法。首先,构建烟草病虫害领域数据集,为本文研究奠定数据基础。其次,对命名实体识别模型进行优化改进,通过BERT将文本向量化,并引入了双向门控循环单元、图卷积神经网络、多头自注意力机制以及条件随机场,提出了一种基于BERT-Bi GRU(GCN)-MHSA-CRF的命名实体识别方法。然后,通过将本文模型运用在四个公开数据集上进行对比实验,验证本文模型的泛化性、有效性及稳定性。最后,开发设计出一个基于B/S架构的烟草病虫害在线命名实体识别系统,将识别结果进行可视化展示,验证了实际应用的可行性。本论文的研究方法为烟草病虫害的命名实体识别提供了一种新的思路,对提高烟草病虫害领域的命名实体识别效果具有一定的指导意义,为后续烟草病虫害防治相关的信息抽取、问答系统、文本分类、知识图谱构建等下游工作提供底层技术支撑,帮助烟草种植人员更加高效准确的找到对应的病虫害防治方法,具有非常广泛的应用前景及较强的现实意义。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码小屋 ,原文地址:https://bishedaima.com/lunwen/54872.html