8篇关于关系分类的计算机毕业论文

今天分享的是关于关系分类的8篇计算机毕业论文范文, 如果你的论文涉及到关系分类等主题,本文能够帮助到你 面向网络威胁情报的知识图谱构建研究 这是一篇关于网络威胁情报

今天分享的是关于关系分类的8篇计算机毕业论文范文, 如果你的论文涉及到关系分类等主题,本文能够帮助到你

面向网络威胁情报的知识图谱构建研究

这是一篇关于网络威胁情报,知识图谱,数据增强,实体抽取,关系分类的论文, 主要内容为随着互联网的快速发展,各种不同的网络攻击形式也层出不穷。为了保障网络空间安全,利用防火墙、入侵检测系统等防护平台是当前常用的防御手段。但这些传统的防御手段无法应对高级可持续威胁攻击和零日攻击,这些创造性的网络攻击形式在危害程度上比普通的网络攻击更高,同时也更为隐蔽和持续。网络威胁情报是网络攻击行为的宝贵信息来源,蕴含了网络威胁指标、攻击策略、攻击技术和行为模式。充分利用网络威胁情报,挖掘更高层次的信息对于网络安全防御,以及构建网络安全主动防御体系具有重要意义。为了从非结构化网络威胁情报中抽取情报信息,现有研究通过正则表达匹配和构建词库的方式,抽取网络威胁指标,但这种方法能够抽取到的实体类型极为有限;还有一些研究利用自然语言处理方法进行实体抽取,但缺少系统性的研究,没有通过关系整合实体间关系,不能挖掘出更高层次的网络威胁情报信息。知识图谱是大数据背景下,利用图结构对客观世界建模的技术,能够有效描述实体、实体间关系和属性。利用知识图谱构建相关技术,能够有效挖掘网络威胁情报中的高层次情报信息,这正契合了网络威胁情报信息抽取的需要。因此本文主要研究面向网络威胁情报的知识图谱构建,利用知识图谱构建技术抽取网络威胁情报中蕴含的高级情报信息。本文研究聚焦于网络威胁情报领域图谱构建的关键技术,重点对图谱构建的实体抽取技术和关系分类技术进行研究,本文具体内容如下:1.针对网络威胁情报实体抽取,提出了基于数据增强的实体抽取方法。将实体抽取建模为命名实体识别任务,构建了网络威胁情报领域的实体抽取数据集,对比了不同命名实体识别模型在领域数据集上的效果,将BERT-Bi LSTMATTN-CRF模型应用于网络威胁情报领域的实体抽取。针对深度学习模型对大量训练集样本的需要,本文提出了一种适用于网络威胁情报领域的数据增强方法,使用了数据增强方法的实体抽取模型F1值最高为91.86%,相比于没有数据增强F1值提高了1.09%。2.针对网络威胁情报关系分类,提出了网络威胁情报的实体关系分类方法。构建了网络威胁情报领域的关系分类数据集,系统性探讨了不同关系分类模型在领域数据集上的关系分类能力,将RIFRE模型应用于网络威胁情报领域的关系分类,并利用所提出的数据增强方法进行模型优化,本文实体关系分类模型F1值最高为86.93%,相比于没有数据增强F1值提高了0.91%。3.本文设计并实现了网络威胁情报的知识图谱构建与动态攻击组织画像系统。利用所提出的实体抽取方法、实体关系分类方法,抽取关系三元组。设计并实现了数据采集与处理模块、知识图谱构建模块以及动态攻击组织画像模块,尝试性的将网络威胁情报知识图谱应用于攻击组织的分析。

小样本条件下的实体关系分类研究

这是一篇关于关系分类,小样本学习,原型网络,注意力机制的论文, 主要内容为实体关系分类是自然语言处理中一项重要的任务,旨在识别出文本中实体对之间存在的关系,是知识图谱构建、自动问答系统等多项任务的基础。传统基于规则的方法需要领域专家制定规则,耗费人力且通用性差;基于深度学习的有监督学习方法依赖大量的标注数据,性能受限于标注数据数量;远程监督方法能够将知识库的知识对齐到文本进行自动标注,但无法解决样本长尾分布的问题,并且会引入样本噪声。因此,在小样本条件下实现实体关系分类具有重要的研究意义。现有的小样本关系分类模型将小样本学习方法与关系分类模型结合,其中基于原型网络的方法取得了较好的成果。目前基于原型网络的方法大多使用卷积神经网络(CNN)和静态词向量对文本进行编码,模型性能受限于词向量的语义建模能力,且未充分利用实体语义信息。此外,原始的原型网络忽略了支持集中同类样本的差异,无法针对具体的查询样本构造适合当前分类任务的原型。针对上述问题,本文在现有研究成果的基础上提出了基于实体信息增强与选择注意力的小样本关系分类模型。模型使用Ro BERTa构建文本编码器,能够充分地提取文本上下文语义特征。为了更充分地利用实体语义信息,本文提出基于互注意力的实体语义信息增强方法,将实体语义信息与全局语义信息融合,得到更丰富的实体关系特征。此外,考虑到支持集同类样本间的差异,本文提出了基于选择注意力的原型构建方法,在构建原型的过程中,能够针对当前查询样本的特征,为支持样本赋予不同的权重,构造更精确的原型。最后,本文在模型的损失函数中加入了支持集相似度损失,使模型从同类样本提取到的特征更加统一,进一步提升了关系分类的准确率。本文在小样本关系分类常用的Few Rel 1.0和Few Rel 2.0数据集上进行了广泛的对比实验,结果表明,与主流方法相比,本文提出的模型有效地提升了小样本关系分类的准确率,并且具有更强的领域迁移能力。本文还在传统关系分类任务数据集Sem Eval-2010 Task 8和NYT-10进行测试,验证了模型的适用范围。此外,本文设计了多组消融实验,分析了模型中各模块对模型性能的具体影响。最后,本文测试了模型在不同任务条件下的准确率以及计算效率,验证了本文模型应用的可行性。

信息抽取方法研究及其在政务文本知识图谱中的应用

这是一篇关于政务提案文本,信息抽取,分层Softmax策略,目标注意力机制,命名实体识别,关系分类,知识图谱的论文, 主要内容为随着大数据时代的到来,利用信息抽取技术可以有效地从海量文本数据中提取出重要的语义信息,并将非结构与半结构化数据高效地转变为统一的结构化数据。随着政府数字化转型改革的不断深入,与日俱增的政务文本数据已经成为社会治理的重要资源和决策关键,因此,借助自然语言处理、信息抽取、知识图谱等人工智能技术对政务文本数据进行知识梳理与信息挖掘,对提升决策者的知识阅读、信息获取效率,以及打造良好的智慧政务工作环境具有重要意义。当前政务提案文本的信息抽取方法研究仍处于起步阶段,其原因有两个方面:一方面是现有的命名实体识别模型与关系分类模型未能有效地提取文本的语义特征信息,导致现有模型精度不高,无法满足政务领域的业务需求;另一方面是缺乏政务领域基准数据集。基于此,本文展开了信息抽取方法研究及其在政务提案文本知识图谱中的应用。(1)针对现有命名实体识别模型准确率低且难以实现并行计算的问题,提出了一种基于分层Softmax策略的命名实体识别方法。通过结合Transformer结构特性与分层Softmax计算策略,利用文本中字符级、词级、位置的特征信息得到上下文依存信息,建立了一种并行化计算的高性能命名实体识别模型。模型在Resume、Weibo公开数据集上分别获得了96.24%和70.32%的最佳F1分数,其效果优于其他对比模型。(2)针对传统注意力机制计算性能差的问题,提出了一种基于目标注意力机制的关系分类方法。通过引入目标注意力机制来解决计算冗余问题,并充分利用词嵌入信息和位置嵌入信息得到上下文的重要语义信息,实现了一种结构简单且准确率高的关系分类模型。模型在Sem Eval-2010task 8、Conll04公开数据集上分别获得了85.27%和71.39%的最佳F1分数,其性能明显优于其他对比模型。(3)针对政务领域基准数据集匮乏的问题,提出了一种基于粗细粒度划分的政务提案文本数据集构建方法,创建了面向政务提案文本领域的基准数据集。同时,利用Neo4j图数据库构建了基于信息抽取方法的政务提案文本知识图谱,并实现了政务提案文本知识图谱的可视化展示,使得所建的政务提案文本知识图谱有效地提升了政务文本数据采集、整理及应用水平,同时也促进了政府组织机构智慧政务的发展。

实体关系联合抽取技术研究及实现

这是一篇关于实体与关系抽取,注意力机制,关系分类,实体识别的论文, 主要内容为随着互联网的迅猛发展与普及,通过网络获取想要的信息和服务日益融入到人们的日常工作和生活中。如何从海量、芜杂的网络数据中快速发现有用的信息和知识,具有重要的研究价值,同时也极具挑战。实体与关系抽取技术能够识别非结构化文本中的实体,并判断两个实体之间的关系,从而得到结构化的三元组知识,是实现信息和知识获取的重要途径之一,在知识图谱构建、信息检索、对话系统、推荐系统等领域有着广泛的应用需求。目前的实体关系联合抽取的研究主要存在着三个问题:1)多数只关注如何从文本抽取出互不交叉的若干个三元组,然而,实际上文本中不同三元组之间往往存在复杂的实体重叠或者关系重叠,导致现有的诸多研究不能应用于复杂的三元组抽取任务;2)对于文本中存在多个三元组的情况,现有的研究工作往往依赖于多次反复抽取,导致效率较低;3)实体识别和关系分类两个子任务如何联合建模还需要进一步探索。针对上述三个问题,本文提出了一种多关系多实体对联合抽取模型。具体地,模型首先采用循环神经网络对文本进行编码,作为关系抽取与实体对预测共享的文本表示;接着,为每个关系类型建立一个二分类器,一次抽取出文本中的所有关系类型,并得到关系标签的向量表示;最后,采用融入关系信息的“三元组”注意力网络和指针网络,为给定的关系向量生成所有可能的实体对。基于此,本文提出的模型可以有效地同时抽取多个三元组知识,包括具有关系或实体重叠的三元组知识。为了验证上述模型的有效性,本文在两个英文数据集(NYT和WebNLG)及一个中文数据集(SKE)上进行了实验。结果表明,本文的工作在三元组抽取的整体F1值上均优于其它对比模型,特别地,在同时抽取多个重叠的三元组时,本文提出的模型能显著提升实体与关系抽取的性能。以此为基础,本文搭建了一个基于web的实体与关系联合抽取系统,为用户提供了可配置的图形化界面。

基于深度学习的知识抽取模型研究

这是一篇关于深度学习,知识抽取,命名实体识别,关系分类,三元组抽取的论文, 主要内容为搜索引擎以及社交网络为人们提供了海量文本信息,但是这些数据的存在形式一般都是非结构化的,难以直接利用其中蕴含的丰富知识。因此,如何从这些非结构化文本中将结构化的知识有效抽取出来,成为当前重要的研究任务。命名实体和三元组都是结构化知识的重要组成部分,有关命名实体识别、关系分类以及三元组抽取任务获取了广泛关注,这三个任务都是知识抽取中的重要环节,知识图谱的构建与这些任务密切相关。尽管当前对命名实体识别、关系分类以及三元组抽取的研究已经取得了许多成果,但仍然有以下问题尚未解决:(1)命名实体识别模型大多以条件随机场作为解码器来生成预测标签序列,但是在模型训练时条件随机场的收敛速度慢,需要消耗大量时间。此外,语言模型会对一些语法角色相近的词指定类似的嵌入,而这会导致生成的词向量表示难以准确表达出单词实际的含义,直接影响模型的性能。(2)现有关系分类模型大多都单独使用预训练语言模型以生成表示或者单独使用图神经网络以学习表征,较少将两种方法相结合以预测实体间的关系。(3)现有的许多三元组抽取方法使用单个模型联合抽取实体和关系,无法有效地对重叠三元组进行抽取,也就是说,一个句子所包含的多个三元组之间有相同的实体,这将导致模型难以学习或者根本无法准确学习到实体之间的关系。深度学习在自然语言处理任务中发挥着重要作用,因此针对以上问题,本文的工作将基于深度学习从以下三个方面开展。(1)针对条件随机场训练速度慢以及生成的词向量质量不高的问题,本文构建了一种基于指针标注的命名实体识别模型(PT-NER),使用BERT和BiGRU获取上下文特征,再通过指针标注对命名实体的边界进行预测,来取代条件随机场作为解码器,以减少训练时间,同时对BERT的输入表示加上扰动,利用对抗训练来提升词向量的质量。本文实验在Resume、CLUENER2020这两个数据集上进行,实验结果证明,PT-NER模型能提升训练速度,且运用对抗训练能进一步提升模型的性能。(2)针对现有关系分类模型较少将基于预训练语言模型的方法和基于图神经网络的方法相结合的问题,本文提出了一种结合预训练语言模型BERT和图注意力网络的关系分类模型(GAT-RC),利用BERT获得词向量,再基于BiLSTM来获得上下文表示,同时将预定义的关系映射为高维向量,再将单词和关系建模为节点,通过图注意力网络来对单词节点表示与关系节点表示进行更新,将头实体和尾实体的表示以及关系节点表示进行拼接后,通过MLP进行关系分类。本文实验在SemEval2010 task8、Re-TACRED这两个数据集上进行,实验证明,GAT-RC模型较基线模型具有更好的性能,能有效实现关系分类。(3)针对多数三元组抽取模型无法有效抽取出重叠三元组的问题,本文基于前面两章的模型PT-NER和GAT-RC,提出了一种融合图注意力网络与指针标注的三元组抽取模型(GAT-PT-RTE),使用BERT、多头注意力机制和图注意力网络来获取关系表示和句子表示,学习到更适合于三元组抽取任务的表示,先利用指针标注来预测头实体,再在特定关系下预测对应的尾实体,并在此基础上加入对抗训练来提升模型的性能,以此进行重叠三元组的有效抽取。本文在WebNLG和NYT这两个数据集上开展了系列实验,结果表明,GAT-PT-RTE能比基线方法更有效进行三元组抽取,而且能有效对重叠的三元组进行识别。综上,本文构建了命名实体识别模型PT-NER、关系分类模型GAT-RC以及三元组抽取模型GAT-PT-RTE,同时在这三个任务上与基线方法相比都获得了更好的效果。不依赖于任何NLP工具,本文提出的模型能推广到更多的知识抽取场景中,对开展相关研究具有参考意义。

面向内蒙古历史的领域语料库构建

这是一篇关于语料库构建,内蒙古历史领域,中文分词,实体识别,关系分类的论文, 主要内容为近年来,随着深度学习技术的高速发展,人类在自然语言处理方向的研究不断深入,对于语料库的需求也日益增多。语料库作为一个存放语言材料的数据仓库,是自然语言处理以及计算机语言学的研究基础,为分词任务、实体识别任务以及关系抽取任务等提供了有效的底层数据支持,推动人们对语言的理解和应用。而在内蒙古,该地区有着丰富的历史文化,但许多历史人物、事迹以及民族发展等都是以书籍文献等纸质文本方式进行记载存储,不利于知识文化的传播以及学习。为此,本文基于内蒙古历史,对其进行语料库构建,涉及到三大部分:中文分词、实体识别以及关系分类。面向内蒙古历史的领域语料库构建,能为上层的、与内蒙古历史文化相关的知识图谱、智能问答、推荐系统等提供了原始的数据支持,让人们能够更加快速地学习和了解内蒙古历史,推动了其文化的发展与传播。本文主要研究内容如下:(1)基于深度主动学习构建内蒙古历史领域的中文分词和实体识别语料库。本文把中文分词和实体识别都视为成一个序列标注问题,深度学习模型采用BERT+Bi LSTM+CRF框架,主动学习的样本选择策略使用MNLP(Maximum Normalized Log-Probability)算法。最后成功标注15542条句子,总词数达到388789个的中文分词语料库;实体识别语料库则标注了19种不同类别、共计56140个实体。在这两个语料库的基础之上,本文使用BERT+Bi LSTM+CRF框架分别训练了内蒙古历史领域的中文分词模型M-CWS和实体识别模型M-NER,其中MCWS和M-NER的F1值分别为96.63%和86.57%,能够满足于一般的使用场景需求,同时这两个模型也用于本文原型系统中的展示平台。(2)基于远程监督方法构建关系分类语料库。远程监督的思想在于若实体对共现在一条句子中,则认为该句子能够表达实体对之间的关系,但这种方法提取的语料存在大量的噪音。为此,本文提出一种基于触发词的匹配对齐方法,利用M-CWS分词模型对触发词进行全词匹配,实现对13种单向关系,共计29203条句子的内蒙古历史领域的关系分类语料库构建。在此语料库的基础之上,本文使用BERT+Bi LSTM+Softmax框架训练了一个内蒙古历史领域的关系分类模型MREL,该模型F1值达到88.95%,能够满足于一般的使用场景需求,同时该模型也用于本文原型系统中的展示平台。(3)实现原型系统。本文实现的原型系统包括标注平台和展示平台两个部分。其中,标注平台主要辅助标注人员标注以及语料的存储,如PDF文件转换成TXT文本、相对应语料的标注页面、语料管理页面、语料导出等功能。展示平台则分为图谱展示以及句子识别,图谱展示对内蒙古历史人物关系及相关属性进行可视化展示,便于历史脉络的梳理和整合;句子识别则使用M-CWS、M-NER和M-REL模型来对句子进行中文分词、实体识别以及关系分类。

基于知识图谱的《伤寒论》智能问答系统研究

这是一篇关于《伤寒论》,知识图谱,实体识别,关系分类,智能问答的论文, 主要内容为目的:中医药(Traditional Chinese Medicine,TCM)在抗击新型冠状病毒肺炎疫情时给出了中国方案后,民众对中医药的认可推动了快速且准确获取中医药知识的需求的产生,同时也给中医药信息化带来了新的挑战。本文旨在以宋版《伤寒论》为例,结合知识图谱(Knowledge Graph,KG)以及智能问答(Question Answering,QA)技术,为中医药古籍信息化打下基础。方法:(1)采用基于规则的方法提取《伤寒论》中疾病、证候、症状、处方、药物五类中医药实体及它们之间关系和属性,并通过属性图对知识图谱进行管理,最后通过Neo4j图数据库完成知识图谱的存储;(2)将基于规则方法抽取的五类中医药实体标注成命名实体识别(Named Entity Recognition,NER)训练语料,以BiLSTM模型作为特征提取层,CRF模型作为输出标注层,Embedding层分别使用word2vec、BERT、ALBERT进行实验,选取更适用于《伤寒论》中相关实体抽取的模型对用户输入问句进行实体识别;(3)收集《伤寒论》五类常见问题的不同表述方式构建关系分类(Relational Classification,RC)训练数据集,通过多项分布朴素贝叶斯(Multinomial Naive Bayes,Multinomial NB)模型训练得到《伤寒论》问答系统关系分类模型;(4)针对不同类型问题分别设计Cypher查询模板,用于查询Neo4j中用户所提问题的答案,返回给用户。结果:(1)构建了包含639个实体,2076个实体关系的《伤寒论》知识图谱,并通过属性图以及Neo4j图数据库完成了知识图谱的管理与存储;(2)以ALBERT模型作为Embedding层的实体识别模型的准确率、召回率和F1-测度值分别为85.37%、86.84%、86.02%,优于以word2vec和BERT作为Embedding层的实体识别模型,更适用于《伤寒论》问答系统中用户输入问句的实体识别。(3)多项分布朴素贝叶斯模型在数据集中分类的准确率、召回率和F1-测度值分别为92.00%、92.00%、91.00%,分类效果较好,可以应用到《伤寒论》问答系统中。结论:本文通过抽取《伤寒论》中实体、关系与属性构建的知识图谱结合智能问答相关技术能够实现对《伤寒论》中基本知识的快速获取,为中医药古籍的信息化奠定了基础。

融合多特征信息的关系分类方法研究

这是一篇关于关系分类,BERT,Nystr(?)mformer,实体类型信息,多特征融合的论文, 主要内容为关系分类是自然语言处理领域的一项重要任务,也为知识图谱的构建、问答系统和信息检索等相关研究提供技术支持。深度学习技术的出现拓展了关系分类任务的相关研究,在实验效果上取得进一步的突破,基于深度学习的关系分类方法逐渐成为该研究的重点研究方法之一。近年来,基于深度学习的关系分类研究在任务改进方面主要集中在对注意力机制的优化和对语义信息的优化两大方面上。然而,此类方法目前尚且存在以下问题:(1)不少学者在关系分类研究中使用完整的句意特征辅以实现关系分类任务,但关系分类任务不完全等价于语句分类任务,与实体相关的上下文信息会更影响实体之间的类型划分,句意特征中的一些无效语义信息会变成影响关系分类性能的噪声;(2)在语料量较小的数据集上训练关系分类模型,会因为数据集本身的信息量较少的原因导致模型无法学习到较为完整的语义表示,语义信息的提取来源还有待进一步扩展;(3)深度学习模型的实验表现较为依赖于模型提取的特征,当模型提取的特征较为单一,会制约关系分类模型性能进一步提升。针对上述问题,本文提出了一种融合多特征信息的关系分类方法,从深度学习模型与语义特征两个方面对关系分类方法进行改进。本文在BERT模型的基础上结合Nystr(?)mformer注意力机制构建SEBN模型,利用SEBN模型重点关注语料中更利于关系分类的句意信息;采用Type-SEBN模型对句意信息、实体信息、实体类型信息等多种语义信息进行学习,并通过相关实验证明本文所提的句意信息、实体类型信息的有效性以及所用语义信息融合方式的有效性。本文的相关工作如下:(1)通过参考spaCy和Stanford Core NLP等工业级实体类型分类标准,根据研究所需选择性地对分类标准进行优化,构建出契合本研究需要的实体类型分类标准imp Spa Cy。理清对应实体在句子中的具体含义,以便于通过参阅imp Spa Cy标准,以人工标注的形式对Sem Eval-2010 Task 8数据集的各原句的实体标注出其实体类型。提出一种类向量生成算法,从数据集中抽取出实体的类向量,并作为外部语料的方式将其引入模型中学习,使之成为重要的关系分类的重要语义特征辅以实验的完成。(2)通过组合BERT模型与Nystr(?)mformer注意力机制构建SEBN模型,将Sem Eval-2010 Task 8语料中的句子经由BERT模型编码成词向量,之后将所有生成的词向量一同输入Nystr(?)mformer层中,利用Nystr(?)mformer注意力机制对有利于关系分类的重要句意信息进行重点关注,出于提升后继任务的效果的考量下,提升了BERT模型的句意信息抽取的效果。(3)利用SEBN模型对句意信息、实体信息、实体类型信息融合而成的复合语义信息进行学习,构建出本文的最终模型Type-SEBN。将句意特征、实体特征、实体类型特征经由模型组合后分别送入全连接层与softmax层处理后,得到指定实体对之间的关系类型。(4)通过设置实验与分析,既证明了本文模型在关系分类任务上优于参考模型,也证明了本文所提的融合了句意特征、实体特征、实体类型特征的复合语义特征的有效性。

本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码港湾 ,原文地址:https://bishedaima.com/lunwen/49244.html

相关推荐

发表回复

登录后才能评论