基于生成对抗网络的开放知识图谱补全方法研究
这是一篇关于开放知识图谱补全,注意力机制,Bert模型,生成对抗网络的论文, 主要内容为知识图谱补全是知识图谱构建的一个重要任务。传统的知识图谱补全方法依赖充足的实例进行训练。然而,在现实世界中,知识图谱是动态的,随时会有新实体被添加进来。新实体可用的训练实例很少、难以进行表示。因此,论文提出使用开放知识图谱补全方法处理新实体。以往的开放知识图谱补全方法在为新实体引入文本信息时,由于未实现文本与知识图谱表示的有效对齐导致较差的实验效果。论文提出一种使用生成对抗网络联合知识图谱和文本表示的开放知识图谱补全模型,简称GROKGC。GROKGC模型充分学习实体在闭合知识图谱空间的结构信息,并利用生成对抗网络学习实体在该空间的数据分布,具体操作过程如下:首先,GROKGC利用实体所在三元组中的关系和尾实体对该实体进行表示,并将关系和尾实体在知识图谱中对应的邻居信息引入到该实体的结构化知识表示中。其次,通过融入Bert模型提取实体的文本语义特征,获得实体的非结构化文本表示。最后,利用生成对抗网络建立实体的结构化知识图谱语义空间与非结构化文本语义空间之间的连接。通过训练该生成对抗网络,获得生成效果良好的生成器。此时,将实体的非结构化文本表示输入到该生成器中,获得新实体的向量表示并被应用于开放知识图谱补全任务。论文在FB20k和FB15k-237-OWE两个开放知识图谱补全数据集上进行实验,并将结果与其它开放知识图谱补全方法进行比较。结果表明,对比其它开放知识图谱补全方法,GROKGC模型在上述数据集表现相对较好。
基于特征增强的短文本分类研究
这是一篇关于短文本分类,特征增强,上采样,Bert模型,变分自编码器的论文, 主要内容为近年来伴随着数字经济及计算机技术的高速发展,逐渐出现了很多社交媒体平台、电商平台,人们在平台上交流分享着各种消息,并且这些消息以短文本的形式出现,这也就导致短文本形式的数据呈爆发式增长。因此对短文本数据进行分析处理,挖掘出数据背后所包含的内涵,具有十分重要的现实意义和应用价值,于是短文本分类就成为一个很有意义的研究方向。短文本数据因其自身存在文字简短、文本噪声大的问题,故而导致在传统的短文本分类过程中出现文本的特征表示稀疏、特征表达能力差等问题。为此,本文以短文本类数据为研究对象,深入分析了短文本数据的特点,并对现有短文本分类模型以及方法存在的不足进行了深度剖析,提出了两种特征增强模型用于短文本分类,具体的工作可以概述为:第一种是基于卷积神经网络的特征增强模型CNN-UN(CNN-unsample)。在CNN-UN模型中,首先,利用多尺度的卷积神经网络提取不同语义特征的语义特征;然后,本文提出了一种结合上下采样的特征增强方式,先利用上采样扩充特征向量的方法来增强短文本的语义特征表示,接着对扩充后的特征利用下采样卷积的方式进一步得到文本特征的深层表示;最后利用文本的深层关键特征进行分类。第二种是融合Bert模型和变分自编码器模型的特征增强模型Bert-VAE。在Bert-VAE模型中,首先,利用预训练Bert模型获取丰富全面的文本特征表示;然后,针对短文本存在的特征稀疏问题,利用变分自编码器生成增强样本特征以及Bert编码特征的优良性能,进一步提高文本的特征表示性能;最终融合Bert文本特征和增强特征预测文本类别。综上所述,通过在新闻文本标题的分类数据集上的实验结果,证明了本文提出的两种特征增强方式具有较好的性能,在一定程度上显著提升了模型在短文本分类任务中的表现。
基于生成对抗网络的开放知识图谱补全方法研究
这是一篇关于开放知识图谱补全,注意力机制,Bert模型,生成对抗网络的论文, 主要内容为知识图谱补全是知识图谱构建的一个重要任务。传统的知识图谱补全方法依赖充足的实例进行训练。然而,在现实世界中,知识图谱是动态的,随时会有新实体被添加进来。新实体可用的训练实例很少、难以进行表示。因此,论文提出使用开放知识图谱补全方法处理新实体。以往的开放知识图谱补全方法在为新实体引入文本信息时,由于未实现文本与知识图谱表示的有效对齐导致较差的实验效果。论文提出一种使用生成对抗网络联合知识图谱和文本表示的开放知识图谱补全模型,简称GROKGC。GROKGC模型充分学习实体在闭合知识图谱空间的结构信息,并利用生成对抗网络学习实体在该空间的数据分布,具体操作过程如下:首先,GROKGC利用实体所在三元组中的关系和尾实体对该实体进行表示,并将关系和尾实体在知识图谱中对应的邻居信息引入到该实体的结构化知识表示中。其次,通过融入Bert模型提取实体的文本语义特征,获得实体的非结构化文本表示。最后,利用生成对抗网络建立实体的结构化知识图谱语义空间与非结构化文本语义空间之间的连接。通过训练该生成对抗网络,获得生成效果良好的生成器。此时,将实体的非结构化文本表示输入到该生成器中,获得新实体的向量表示并被应用于开放知识图谱补全任务。论文在FB20k和FB15k-237-OWE两个开放知识图谱补全数据集上进行实验,并将结果与其它开放知识图谱补全方法进行比较。结果表明,对比其它开放知识图谱补全方法,GROKGC模型在上述数据集表现相对较好。
基于Bert的命名实体识别研究
这是一篇关于网络安全,知识图谱,命名实体识别,Bert模型的论文, 主要内容为随着信息技术的飞速发展和计算机等信息设备的广泛应用,人类社会已经步入了信息时代。与此同时,随之伴生的网络安全问题也给国家安全和社会发展带来潜在的威胁和损失,如何在信息时代保障网络空间安全成为了学术界和工业界关注的重要问题。近年来,通过知识表示方法,将网络安全领域中漏洞、资产、攻击活动等关键要素模型化,并为网络安全的态势分析、应急处置等环节提供知识支撑,逐渐成为一种有效研究手段。特别随着以谷歌知识图谱为代表的相关技术快速的发展,网络安全领域开始引入知识图谱对网络安全知识进行表示,而实现准确命名实体识别是构建知识图谱的重要前置环节。相关研究发现,传统命名实体识别方法在应对网络安全这一专门领域时存在一些不足,如基于隐马尔可夫模型的命名实体识别算法使用条件严格,由于大部分网络安全语句并不符合马尔可夫性,导致命名实体识别效果差。针对上述问题,本文重点研究解决网络安全领域的命名实体识别准确性问题,主要工作包括:首先,本文分析了将Bert模型用于网络安全领域命名实体识别的缺点,针对Bert模型参数量大的问题,设计了改进的Bert算法。Bert算法适合解决中等长度的文本,而网络安全领域的命名实体识别主要以句子为单位作为输入,直接使用Bert算法时由于参数量大,训练时间长,效率较低。本文通过分享Encoder内部self-attention层参数的办法,减少了模型的参数,实现了Bert模型的轻量化改进。本文在MNLI和SST-2数据集上进行实验,实验结果表明,改进以后的算法模型参数降低了19.4%,而性能上基本保持不变。其次,本文使用BIOES模式对网络安全数据进行标注,将该领域的命名实体分为资产、漏洞、攻击三类。针对网络安全领域文本涉及范围大、噪声多的特点,本文设计了基于改进Bert算法的Bert-Bi LSTM-CRF模型,通过改进的Bert算法预处理、编码器、条件随机场等对网络安全领域的命名实体进行识别。最后,结合上述算法,本文设计了一个网络安全领域的命名实体识别原型系统。具体而言,该系统将Bert模块的输出作为Bi LSTM模块的输入;通过Bi LSTM模块对上一个模块的输出进行解码;Bi LSTM模块的输出又作为条件随机场模块的输入,通过条件随机场模块来对Bi LSTM模块的输出进行解码;最终完成网络安全领域的命名实体识别。该模型具有较强的特征提取能力,应用在网络安全领域的命名实体识别中可以取得良好的效果。综上,本文通过参数共享的方式改进了Bert算法,使其适用于网络安全领域命名实体识别时训练时间短、效率高;其次,设计了Bert-Bi LSTM-CRF模型,通过改进的Bert算法、编码器、条件随机场等对网络安全领域的命名实体进行识别;最后,本文设计了一个面向实际网络安全的命名实体识别原型系统。
基于提示学习和优化长尾分布的中医病症分类模型及应用
这是一篇关于文本分类,Bert模型,提示学习,长尾分布,中医病症分类系统的论文, 主要内容为在新冠疫情的防控工作中,中医药发挥了积极的作用。本文研究中医病症分类,相较于Bi-LSTM和TextCNN,Bert模型的分类效果更为出色。但在样本匮乏和数据分布不均衡的场景下,仅仅使用fine-tune的方式,Bert模型的性能还有明显的提升空间。针对样本匮乏和数据分布不均衡的问题,采用基于提示学习人工设计模板和改进损失函数的方法,提出Prompt_Trig_Bert文本分类模型,适应中医病症分类任务的特点,有效提高模型的分类性能。本文主要研究内容和创新点如下:(1)针对样本匮乏的问题,通过预训练语言模型学习语言知识,在过程中给出提示信息,引导模型进行微调。采用提示学习的方法微调Bert预训练语言模型,提高模型的小样本学习能力和鲁棒性。在构建Prompt时,尝试三种不同的人工设计模板:前缀掩码(Prefix_MASK)、后缀掩码(Postfix_MASK)、触发词MASK(Trigger_MASK)。通过实验选定最佳人工设计模板——Trigger_MASK。(2)针对数据分布不均衡的问题(即长尾分布),由于Bert fine-tune模型倾向于预测样本数量更多、更常见的类别,对数量少、更罕见的类别分类效果较差,而Dice Loss能降低数量更多、更常见的类别在损失函数中的权重,使得损失函数倾向于数量少、更罕见的类别,所以采用改进的Dice Loss替换CE Loss。(3)由于在构造模板过程中融入了对病症分类的先验知识,Trigger_MASK模板实验效果优于另外两种人工设计模板,在选定最佳模板Trigger_MASK算法的基础上融入改进的Dice Loss损失函数,进而提出基于提示学习人工设计模板(Trigger_MASK)和改进Dice Loss损失函数的Prompt_Trig_Bert文本分类模型。实验结果表明,Prompt_Trig_Bert模型的实验效果优于Bert fine-tune模型(F1-socre提升3.1%,Precision值提升3%,Recall值提升3.2%),在小样本场景下预测罕见类别(妇科和外科)的学习能力得到提高,进而提高模型分类性能。(4)系统开发与创新创业应用。使用Prompt_Trig_Bert模型部署并开发中医病症分类系统,并将系统应用在一款自主设计的中医智能诊治设备中。在软硬件研发过程中,申请并获得多个国家专利,获得“互联网+”竞赛国家级铜奖(项目名称:木林森--创新医疗服务,提高中药药效)、全国三维数字化创新设计大赛国家级一等奖(项目名称:社区型自助中药智能粉碎煎药一体机)等一系列国家级创新创业竞赛奖励。
基于Bert模型的Web应用防火墙系统设计与实现
这是一篇关于Web应用防火墙,Bert模型,攻击检测,实时流处理的论文, 主要内容为随着互联网技术的飞速发展,互联网服务逐渐由传统客户机/服务器(C/S)架构转向浏览器/服务器(B/S)架构,Web应用服务数量呈现指数级增长,相应的Web应用安全漏洞也暴露出来,网络安全事件频发,给Web应用服务开发者带来了巨大的经济损失,同时也产生了Web应用服务使用者的隐私泄露问题。作为Web应用服务的防御机制,Web应用防火墙的发展被提上日程,各大厂商联合各高校实验室积极研究高效的攻击检测算法,以此保护Web应用服务。同时,目前市场上的Web应用防火墙大部分没有提供一个可视化的攻击数据展示功能,不能给Web应用开发者一个直观的效果展示。本文将Web攻击识别问题转化为文本分类问题,攻击检测基于Bert模型,在其基础上结合Web应用攻击检测现状进行微调,结合其他开源防火墙组件,进一步降低了Web应用防火墙的漏报率和误报率。本文采用B/S架构设计,使用调优的Bert模型完成攻击检测,结合Mod Security为用户提供多种检测方案,使用Spark Streaming结合Flume完成攻击检测数据实时流计算,最终设计了一个具有应用接入、攻击检测、攻击数据展示等多个功能模块的Web应用防火墙系统。基于概要设计和微调的Bert模型,详细设计实现包括用户管理、攻击检测、应用管理和数据分析四大功能。本系统经过测试,对Web攻击请求有较高的识别率,且能够处理大量的防火墙日志,提供攻击数据可视化功能,系统整体运行流畅,稳定性较高,可用性较强。本文创新点主要有以下三个方面:一、攻击检测模块算法设计与优化。本文将攻击检测问题转化为了文本分类问题,选取近年来应用广泛、精度较高的Bert模型作为基准模型,将Web请求中出现的高频词汇加入词库,使用Bert中文模型作为预训练模型,针对现有攻击检测数据集较小的现状进行微调,根据训练效果及时调整学习率,在多轮训练没有提升分类效果时提前终止训练任务,使用均值最大池化和权重衰减方案防止模型过大而数据集过小产生的过拟合问题。二、Web应用防火墙微服务化。本文设计实现的Web应用防火墙系统采用微服务的实现,将Web应用防火墙作为服务提供给开发者,开发者可以根据自己的需要单独对应用进行接入和配置,一定程度上解决了现有Web应用防火墙部署复杂和配置修改对系统整体影响较大的痛点,适合需求较多且迭代较快的团队使用。三、Web应用防火墙数据可视化。本文使用Spark Streaming结合Flume完成攻击检测数据实时流计算,将Web防火墙的防御情况实时计算后通过图表方式展示给开发者,保证开发者可以及时对应用的安全情况进行了解,一定程度上解决了传统Web用用防火墙的效果数据黑盒问题,数据计算较为及时,图表数据清晰,满足了开发者的实际需要。本文设计的Web应用防火墙系统在攻击检测方面使用了Bert模型并对其进行效果调优,降低了Web攻击的漏报率和误报率,在实用性方面提供了服务式的应用管理和数据分析等功能。在实际应用中,本系统支持选择不同的安全策略,满足用户的个性化需要。该系统很大程度上解决了Web应用防火墙精度不足、部署和配置复杂、防御结果分析不足的问题,具有较高的应用价值。
基于特征增强的短文本分类研究
这是一篇关于短文本分类,特征增强,上采样,Bert模型,变分自编码器的论文, 主要内容为近年来伴随着数字经济及计算机技术的高速发展,逐渐出现了很多社交媒体平台、电商平台,人们在平台上交流分享着各种消息,并且这些消息以短文本的形式出现,这也就导致短文本形式的数据呈爆发式增长。因此对短文本数据进行分析处理,挖掘出数据背后所包含的内涵,具有十分重要的现实意义和应用价值,于是短文本分类就成为一个很有意义的研究方向。短文本数据因其自身存在文字简短、文本噪声大的问题,故而导致在传统的短文本分类过程中出现文本的特征表示稀疏、特征表达能力差等问题。为此,本文以短文本类数据为研究对象,深入分析了短文本数据的特点,并对现有短文本分类模型以及方法存在的不足进行了深度剖析,提出了两种特征增强模型用于短文本分类,具体的工作可以概述为:第一种是基于卷积神经网络的特征增强模型CNN-UN(CNN-unsample)。在CNN-UN模型中,首先,利用多尺度的卷积神经网络提取不同语义特征的语义特征;然后,本文提出了一种结合上下采样的特征增强方式,先利用上采样扩充特征向量的方法来增强短文本的语义特征表示,接着对扩充后的特征利用下采样卷积的方式进一步得到文本特征的深层表示;最后利用文本的深层关键特征进行分类。第二种是融合Bert模型和变分自编码器模型的特征增强模型Bert-VAE。在Bert-VAE模型中,首先,利用预训练Bert模型获取丰富全面的文本特征表示;然后,针对短文本存在的特征稀疏问题,利用变分自编码器生成增强样本特征以及Bert编码特征的优良性能,进一步提高文本的特征表示性能;最终融合Bert文本特征和增强特征预测文本类别。综上所述,通过在新闻文本标题的分类数据集上的实验结果,证明了本文提出的两种特征增强方式具有较好的性能,在一定程度上显著提升了模型在短文本分类任务中的表现。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设向导 ,原文地址:https://bishedaima.com/lunwen/54830.html