复杂场景下的牛只身份识别
这是一篇关于牛身识别,Vision Transformer,空间聚合,数据不平衡,双边网络,混合图像增强的论文, 主要内容为随着我国推进现代化畜牧业,通过互联网、大数据、5G通信等技术建立智慧牧场实现精细化管理尤为重要,通过牛只身份识别实现智慧牧场成为关键一步。基于深度学习的生物识别技术的广泛应用,使结合深度学习的智慧牧场方式得到迅速发展。但在实际智慧牧场的应用中,由于牧场环境的多样性,采集到的牛身图像姿态差异性比较大,出现多姿态识别困难问题以及数据集不平衡问题。本文主要通过牛舍和挤奶通道采集牛身图像,在牛舍中牛只活动范围较广,采集到的每头牛图像姿态呈多样性,不同姿态下牛只识别比较困难;而在挤奶通道中,牛只被限制在狭窄的通道中,且牛只快速通过,采集的每头牛图像姿态较为单一,采集有效样本较少,当牛舍和挤奶通道中牛身图像混合训练时,导致出现样本不平衡现象。本文基于牛只背部的身体图案进行牛只识别,即牛身识别,主要研究内容如下:1.因为没有公开的牛身图像数据集,实验数据均为实验室自制数据。本文在2个牛场中采集到共389头牛组成的牛身图像数据集,主要通过牛舍和挤奶通道采集的数据。在牛舍中,通过部署在牛舍上方的摄像头采集数据,采集到共309头牛身图像数据,牛舍中的牛只有两种情况,一种是可以自由活动,另一种用绳子栓在牛舍中,牛舍中的牛身图像姿态差异较大。在挤奶通道中,同样通过部署在挤奶通道上方的摄像头采集数据,采集到共80头牛身图像数据,挤奶通道中牛只的活动范围较小,因此牛身图像姿态变化差异较小。2.针对牛身多姿态图像识别困难问题,提出基于局部特征聚合Transformer的牛身识别算法。首先,充分考虑到不同姿态下牛身图像的整体差异性较大而牛身的局部特征信息存在关联性,因此,利用Transformer的多头自注意力机制建立牛身不同部位的关联性。其次,通过卷积空间聚合模块增加Transformer中所没有的局部特征信息,来提高特征信息的表征能力。最后,采用三元组损失以扩大相似度较高的牛身之间的特征距离,同时利用标签平滑交叉熵损失减少过拟合以及建立牛身之间的一定的关联性。实验结果显示,该算法有效提高了多姿态牛身图像的识别性能。3.针对牛身数据集不平衡问题,提出基于MBN-Transformer的不平衡牛身数据的双边识别算法。首先,通过图像混合增强模块将平衡采样器和随机采样器的图像进行混合增强,并通过动态融合混合参数来调整图像混合程度,降低挤奶通道中牛身的过拟合现象。其次,利用Transformer编码器设计常规分支和平衡分支,分别处理牛舍随机采样器的图像混合增强数据和挤奶通道平衡采样器的图像混合增强数据,并将两个分支的输出特征通过动态平衡因子融合,使最终融合后的输出特征随着训练次数的变化来解决挤奶通道中姿态单一的牛身图像数据识别性能较差问题。实验结果表明,该算法对于不平衡牛身数据显著提高了其提高识别性能。4.针对牛身识别算法实际场景部署问题,提出基于AI盒子的牛身识别算法平台的研究。根据实际牧场环境,设计整个算法平台整体架构,包括摄像头部署、算法模型移值、特征比对和模板更新。
基于集成学习的水稻虫害预测研究
这是一篇关于水稻虫害预测,集成学习,麻雀搜索算法,数据不平衡的论文, 主要内容为水稻作为我国主要的粮食作物,为人们的日常生活提供了物质基础。然而在水稻的生长过程中极易受到各种病虫害的威胁,其中虫害是导致水稻减产和品质下降的重要因素之一。虫害预测可以帮助农业生产者及时发现虫害的发生趋势和发生程度,从而采取适当的农业措施,保障水稻的产量与质量。本文以安徽省安庆市部分地区的稻飞虱与稻纵卷叶螟虫害情况入手,进行了水稻虫害预测研究,具体的研究内容如下:(1)分析与处理虫害影响因素。综合文献分析,确定影响水稻虫害的相关因素,选取气象因素作为特征并通过灰色关联度分析确定其相关程度。针对地域特性,结合国标与安徽地方标准的虫害发生程度指标进行等级划分。深入分析数据情况,发现存在数据不平衡问题,采用了数据层面的自适应综合过采样算法(Adaptive Synthetic Sampling,ADASYN)来平衡训练集,同时保留测试集的原始分布,以提高对虫害发生中偏向于重大发生程度的预测关注度,提高预测精度。(2)构建Ada Boost-SSA-SVM虫害预测模型。采用麻雀搜索算法(Sparrow Search Algorithm,SSA)优化SVM模型的超参数,将优化后的SVM模型作为弱学习器,并结合Ada Boost算法进行集成学习,构建了Ada Boost-SSA-SVM虫害预测模型。在稻飞虱与稻纵卷叶螟两种虫害的发生程度预测中,准确率均超过90%以上,宏查全率均超过87%,具有较好的适用能力。在与随机森林、BP神经网络以及SSA-SVM等模型的对比中,准确率较其他模型最高提升了6%,宏查全率提升了24%,Marco-F1提升了14%。数据表现更为均衡,情况较为理想,泛化能力更强。(3)研发水稻虫害预测系统。为了提升用户对模型的使用体验,将水稻虫害预测模型与Vue、Spring Boot、My SQL等技术相结合,研发水稻虫害预测系统,提供用户虫害数据管理、气象数据管理、虫害预测等功能模块,最后对预测结果进行可视化的展示,提供虫害防治建议。
基于集成学习的水稻虫害预测研究
这是一篇关于水稻虫害预测,集成学习,麻雀搜索算法,数据不平衡的论文, 主要内容为水稻作为我国主要的粮食作物,为人们的日常生活提供了物质基础。然而在水稻的生长过程中极易受到各种病虫害的威胁,其中虫害是导致水稻减产和品质下降的重要因素之一。虫害预测可以帮助农业生产者及时发现虫害的发生趋势和发生程度,从而采取适当的农业措施,保障水稻的产量与质量。本文以安徽省安庆市部分地区的稻飞虱与稻纵卷叶螟虫害情况入手,进行了水稻虫害预测研究,具体的研究内容如下:(1)分析与处理虫害影响因素。综合文献分析,确定影响水稻虫害的相关因素,选取气象因素作为特征并通过灰色关联度分析确定其相关程度。针对地域特性,结合国标与安徽地方标准的虫害发生程度指标进行等级划分。深入分析数据情况,发现存在数据不平衡问题,采用了数据层面的自适应综合过采样算法(Adaptive Synthetic Sampling,ADASYN)来平衡训练集,同时保留测试集的原始分布,以提高对虫害发生中偏向于重大发生程度的预测关注度,提高预测精度。(2)构建Ada Boost-SSA-SVM虫害预测模型。采用麻雀搜索算法(Sparrow Search Algorithm,SSA)优化SVM模型的超参数,将优化后的SVM模型作为弱学习器,并结合Ada Boost算法进行集成学习,构建了Ada Boost-SSA-SVM虫害预测模型。在稻飞虱与稻纵卷叶螟两种虫害的发生程度预测中,准确率均超过90%以上,宏查全率均超过87%,具有较好的适用能力。在与随机森林、BP神经网络以及SSA-SVM等模型的对比中,准确率较其他模型最高提升了6%,宏查全率提升了24%,Marco-F1提升了14%。数据表现更为均衡,情况较为理想,泛化能力更强。(3)研发水稻虫害预测系统。为了提升用户对模型的使用体验,将水稻虫害预测模型与Vue、Spring Boot、My SQL等技术相结合,研发水稻虫害预测系统,提供用户虫害数据管理、气象数据管理、虫害预测等功能模块,最后对预测结果进行可视化的展示,提供虫害防治建议。
面向案件文书的罪名预测方法研究
这是一篇关于罪名预测,类别先验Mixup,数据不平衡,均值原型网络的论文, 主要内容为随着人工智能技术的发展以及司法数据的公开,司法领域的人工智能研究与应用受到了广泛关注。罪名预测作为法律判决预测中一个重要子任务,它是司法智能辅助系统的重要组成部分。罪名预测任务根据案情描述和事实预测被告人被判的罪名。罪名预测通常被看作司法领域的文本分类问题,已有方法大多采用深度神经网络构建罪名预测模型,在常见罪名的预测方面取得了很好的效果。然而,已有研究对罪名预测任务中的数据不平衡现象关注较少,导致低频罪名和易混淆罪名预测效果较差。本文面向裁判文书数据开展罪名预测方法研究,从度量学习文本分类和数据增强两个方面改进罪名预测方法。本文主要研究工作包括:(1)针对罪名预测任务中的单罪名情形,本文将均值原型网络引入司法领域的罪名预测这一特定任务中,提出了一种借助均值原型网络实现的罪名预测方法,该方法结合度量学习和Bert构建罪名预测模型,通过移动平均方式集成各罪名的分类原型向量。相比基线模型,该方法的罪名预测F1值提升了5.4%。(2)针对罪名预测存在的类别不平衡问题,本文提出了一种融入类别先验信息的Mixup数据增强策略,有效改进了低频罪名和易混淆罪名的预测性能。该方法首先利用Bi-LSTM和结构化自注意力机制获取案件描述与事实文本的向量表示,在此基础上,通过Mixup数据增强策略在文本向量表示空间中合成伪样本,并利用类别先验使合成样本的标签偏向低频罪名类别,以此来扩增低频罪名训练样本。实验结果表明,与现有方法相比,该方法在准确率、宏精确率、宏召回率和宏F1值上都获得了大幅提升,低频罪名预测的宏F1值提升了13.5%。(3)本文基于提出的预测模型构建了罪名预测原型系统。本文以提出的罪名预测模型为基础,结合Sanic Web开发框架和Vue.js前端框架,开发了基于B/S架构的罪名预测原型系统。
基于深度学习的僵尸网络检测技术研究
这是一篇关于僵尸网络,僵尸网络检测,深度学习,时空特征,数据不平衡的论文, 主要内容为僵尸网络是僵尸主机(botmaster)远程控制的受感染主机集群。随着互联网的不断发展,以及物联网、智能终端、云平台、社交平台的发展,僵尸网络呈现出平台多样化、通信隐蔽、控制智能化的特点。除了包括基于端口扫描的技术和基于深度包检测技术等传统检测技术,近年来基于统计和基于网络行为的僵尸网络检测技术方面的研究日渐成熟。在基于统计和基于网络行为的研究中,研究人员使用多种特征建立可以识别僵尸网络的机器学习模型,并取得了很大进展。这些特征通常由研究人员在模型建立之前通过经验设定。在实验中发现这些检测模型具有较高的召回率。但是,也有一些缺点。首先,人工设计特征对研究者的专业知识有更高的要求。二是特定不变的特征也为攻击者提供了机会,攻击者可以有针对性地改变僵尸网络流量的特征,从而规避模型检测。僵尸网络形态和指挥控制机制正在逐渐进化增强,人工特征选择变得越来越困难。随着深度学习技术的飞速发展,神经网络、强化学习、知识图谱等方法正逐渐应用于僵尸网络检测领域。本文研究如何利用深度学习的方法提取有效的僵尸网络空间和时间二维特征以及如何处理多分类任务中数据集不平衡带来的F1值低的问题。本文的主要研究工作如下:1、介绍僵尸网络的特性以及危害,对以往研究文献进行分析和总结。详细介绍当前僵尸网络检测中涉及的技术及僵尸网络多分类任务中对不平衡数据集的处理方法;阐述特征提取和深度学习相关理论与技术,并对以往处理多分类数据集不平衡问题的方法进行对比研究。2、针对以往僵尸网络检测方法存在的泛化能力差,对特征依赖性强的问题,提出了基于时空残差网络的检测模型。用深层1DCNN和LSTM并行学习僵尸网络的空间和时间特征,并在层与层之间引入残差连接(shortcut connections),最终获得更高层次的特征表达。使用CTU-13数据集进行二分类和多分类任务,并使用异构数据集N-Ba Io T测试模型泛化性。3、针对现实中僵尸网络数据分布不平衡带来的多分类F1值低的问题,提出了结合G-SMOTE算法、多尺度一维卷积残差网络(Multi-scale One-dimension residual neural network,1DMs Res Net)的模型。该模型有效增加了对少数样本的学习,并且计算代价低。该实验使用了Bot-Io T数据集来检验模型对不平衡数据集的有效性。本文的创新之处如下:1、提出了一种新的僵尸网络检测模型,针对僵尸网络存在空间和时间二维特征,利用深层1DCNN和LSTM并行提取时空特征,然后用残差网络(Res Net)来解决网络退化问题。残差网络的捷径连接技术将融合的时空特征跨层传递,最终对输出的表征进行二分类和多分类。在多分类任务中,Res-1DCNN-LSTM模型在CTU-13和N-Ba Io T数据集上F1值比CNN和LSTM融合模型CNN-LSTM分别提高了0.63%和1.33%。2、提出了新的处理僵尸网络数据不平衡的模型。利用G-SMOTE过采样算法对少数样本进行过采样,然后用基于1DMs Res Net的模型对数据集进行Bot-Io T训练和测试。实验结果表明,在多分类任务中,G-SMOTE-1DMs Res Net模型的准确率比GRU模型提高了9.48%。
数据不平衡下的太阳能电池多尺度缺陷检测深度学习方法研究
这是一篇关于数据不平衡,太阳能电池,缺陷检测,卷积神经网络,目标检测的论文, 主要内容为太阳能光伏发电技术是我国绿色发展的重要动力,使用光致发光(Photoluminescence,PL)成像和电致发光(Electroluminescent,EL)成像技术对太阳能电池片进行缺陷检测是保证光伏产品质量的重要手段与关键技术。由于太阳能电池缺陷种类繁多、尺度不一、形态复杂等特点,传统机器视觉方法难以具备足够的准确性。近年来,随着人工智能技术的不断进步,基于深度学习的智能识别方法已经被广泛应用于太阳能电池缺陷检测中。然而,太阳能电池图像中的数据类别不平衡与局部缺陷尺度不平衡问题也同样给深度学习缺陷检测算法的准确性与泛化性带来挑战。因此,本文应用深度学习算法针对数据不平衡问题下的太阳能电池图像分类与局部缺陷区域检测方法展开研究。本文的主要研究内容与贡献如下:(1)在类别不平衡下,传统分类模型容易在学习过程中偏向多数类,将少数类样本错误预测为多数类,导致对多数类别样本预测的低精确率和对少数类别样本预测的低查全率。因此,针对太阳能电池图像数据集的类别不平衡问题,本文提出了一种基于深度类别表征与投票机制的图像分类算法V-Res Net。首先,通过重采样与训练方法,实现对样本的平衡采样与数据增强;随后,在本文改进的卷积神经网络(Convolutional Neural Network,CNN)结构CA-Res Net基础上,设计弱分类网络框架,来提高模型的类别表征能力与鲁棒性;最后,使用投票预测机制来获得最终预测结果,进一步提高分类精度。t-SNE可视化和对比实验结果表明,与传统方法相比,本文提出的算法具有更强的聚类能力与泛化能力,有效解决了电池片图像数据集类别不平衡导致的过拟合与性能不足问题,提高了算法的综合精度。最终,所提出的V-Res Net在太阳能电池PL图像数据集分类问题中达到了0.982的F1精度和98.04%的总体准确率,并通过在EL数据集中的应用证明了算法具有较强的通用性与泛化能力。(2)在尺度不平衡下,使用单一特征层进行预测的传统目标检测算法难以充分利用浅层的细节信息、位置信息与深层的全局信息、语义信息;容易导致其对多尺度缺陷,尤其是对小缺陷的检测精度不足。针对上述问题,本文提出了一种基于多层级特征融合的缺陷区域检测算法MLF R-CNN,以提高模型对太阳能电池多尺度缺陷检测的综合性能。该算法首先利用注意力机制与可变形卷积来增强主干CNN对缺陷的特征提取能力;进一步地,利用双向路径聚合网络来充分利用特征提取器中不同层级的特征图,通过特征融合来预测多尺度缺陷;同时,针对边界框定位精度不足问题,优化模型的回归损失;最后,使用在线困难样本挖掘OHEM方法加强模型对于易错样本、低精度样本的学习,缓解训练中存在的不平衡问题。实验结果表明,该算法实现了对太阳能电池多尺度局部缺陷的高精度边界框检测,尤其提高了对小缺陷的检测能力,在PL数据集9类缺陷检测中达到了78.4m AP的精度。并且,算法在检测过程中能够保持20FPS以上的推理速度,满足电池片检测速度要求。此外,MLF R-CNN在应用于EL数据集四类缺陷检测过程中,提升效果同样显著,精度达到89.3m AP,证明了算法具有较强的通用性和泛化性。
基于Stacking融合模型的用户重复购买行为预测研究
这是一篇关于行为数据,特征工程,数据不平衡,重复购买行为,Staking融合模型的论文, 主要内容为用户的重复购买行为一直是电商领域的研究热点。近年来电子商务平台快速发展,为人们购买商品提供了很大的便利性。然而随着入驻商家越来越多,用户面对种类繁多的商品需要花费大量时间,无法快速购买到适合自己的商品;对商家来说也无法识别潜在用户。因此对用户重复购买行为的研究不仅可以有助于商家找到哪些用户未来可能发生购买行为,从而达到精准营销的目的,同时可以帮助用户快速找到心仪商品。电商平台发展至今积累了大量的真实用户行为数据,这些数据中蕴含着用户的购买习惯和规律。通过研究根据电商平台用户的行为数据获得用户行为规律,使用Stacking融合模型来预测用户的重复购买行为,主要工作如下:(1)基于用户的行为数据构建特征工程。首先对原始的用户行为数据集进行预处理和可视化分析,初步研究用户行为数据集中蕴含的规律。在此基础上,分别从用户、商家以及用户与商家之间的关系三个维度挖掘特征,其中每个维度下从多个角度共构建了121个特征。由于原数据集中存在数据不平衡问题,因此使用改进后的Relief算法挑选出对少数类样本区分能力更强的特征,最后共选择103个特征作为模型的输入。(2)为了保证构建的Stacking融合模型具有良好的性能,在前期研究了十余个不同类型的模型,构建单个模型对用户重复购买行为进行预测,最后选择了预测效果较好的支持向量机、随机森林、XGBoost和Light GBM四种算法来训练Stacking融合模型的第一层基学习器,获得中间预测值作为第二层次级学习器的输入。为了不增加模型的复杂程度,次级学习器选用简单的逻辑回归来训练,降低模型的复杂度和过拟合的风险。(3)为了进一步提高模型的预测能力,对模型做出改进。首先由于原数据集中两类样本的数量差别较大,因此对传统的随机欠采样方式进行改进,结合Easy Ensemble采样核心思想与K-means算法来解决数据不平衡问题;其次本文加入滑动窗口动态更新样本,从而实现对用户重复购买行为的动态预测。(4)基于构建好的Stacking融合模型和改进模型,通过对比实验来验证模型的预测效果:首先在特征选择的基础上对比4个单预测模型与Stacking融合模型的预测效果,结果显示Stacking融合模型的预测效果均优于单预测模型;同时为了验证特征选择对模型预测效果的影响,对比特征选择前后Stacking融合模型的预测效果,实验结果显示使用改进的Relief算法选择特征后,模型的预测效果更好;其次将改进前后的融合模型进行对比,结果显示模型的预测效果有了进一步的提升。
基于深度学习的僵尸网络检测技术研究
这是一篇关于僵尸网络,僵尸网络检测,深度学习,时空特征,数据不平衡的论文, 主要内容为僵尸网络是僵尸主机(botmaster)远程控制的受感染主机集群。随着互联网的不断发展,以及物联网、智能终端、云平台、社交平台的发展,僵尸网络呈现出平台多样化、通信隐蔽、控制智能化的特点。除了包括基于端口扫描的技术和基于深度包检测技术等传统检测技术,近年来基于统计和基于网络行为的僵尸网络检测技术方面的研究日渐成熟。在基于统计和基于网络行为的研究中,研究人员使用多种特征建立可以识别僵尸网络的机器学习模型,并取得了很大进展。这些特征通常由研究人员在模型建立之前通过经验设定。在实验中发现这些检测模型具有较高的召回率。但是,也有一些缺点。首先,人工设计特征对研究者的专业知识有更高的要求。二是特定不变的特征也为攻击者提供了机会,攻击者可以有针对性地改变僵尸网络流量的特征,从而规避模型检测。僵尸网络形态和指挥控制机制正在逐渐进化增强,人工特征选择变得越来越困难。随着深度学习技术的飞速发展,神经网络、强化学习、知识图谱等方法正逐渐应用于僵尸网络检测领域。本文研究如何利用深度学习的方法提取有效的僵尸网络空间和时间二维特征以及如何处理多分类任务中数据集不平衡带来的F1值低的问题。本文的主要研究工作如下:1、介绍僵尸网络的特性以及危害,对以往研究文献进行分析和总结。详细介绍当前僵尸网络检测中涉及的技术及僵尸网络多分类任务中对不平衡数据集的处理方法;阐述特征提取和深度学习相关理论与技术,并对以往处理多分类数据集不平衡问题的方法进行对比研究。2、针对以往僵尸网络检测方法存在的泛化能力差,对特征依赖性强的问题,提出了基于时空残差网络的检测模型。用深层1DCNN和LSTM并行学习僵尸网络的空间和时间特征,并在层与层之间引入残差连接(shortcut connections),最终获得更高层次的特征表达。使用CTU-13数据集进行二分类和多分类任务,并使用异构数据集N-Ba Io T测试模型泛化性。3、针对现实中僵尸网络数据分布不平衡带来的多分类F1值低的问题,提出了结合G-SMOTE算法、多尺度一维卷积残差网络(Multi-scale One-dimension residual neural network,1DMs Res Net)的模型。该模型有效增加了对少数样本的学习,并且计算代价低。该实验使用了Bot-Io T数据集来检验模型对不平衡数据集的有效性。本文的创新之处如下:1、提出了一种新的僵尸网络检测模型,针对僵尸网络存在空间和时间二维特征,利用深层1DCNN和LSTM并行提取时空特征,然后用残差网络(Res Net)来解决网络退化问题。残差网络的捷径连接技术将融合的时空特征跨层传递,最终对输出的表征进行二分类和多分类。在多分类任务中,Res-1DCNN-LSTM模型在CTU-13和N-Ba Io T数据集上F1值比CNN和LSTM融合模型CNN-LSTM分别提高了0.63%和1.33%。2、提出了新的处理僵尸网络数据不平衡的模型。利用G-SMOTE过采样算法对少数样本进行过采样,然后用基于1DMs Res Net的模型对数据集进行Bot-Io T训练和测试。实验结果表明,在多分类任务中,G-SMOTE-1DMs Res Net模型的准确率比GRU模型提高了9.48%。
基于深度学习的集成电路光刻版图热点检测技术研究
这是一篇关于超大规模集成电路,光刻版图热点检测,深度学习,数据不平衡,胶囊网络,应用系统集成的论文, 主要内容为随着超大规模电路尺寸不断缩减,芯片制造受到光刻可印刷技术限制,即光源波长与电路特征尺寸不匹配会引起光刻版图热点(包括:边角圆化、线端缩短、线宽偏差),这些热点模式将影响电路电学特性。传统基于光刻仿真、模式匹配和机器学习的光刻版图热点检测方法仍存在一定的局限性:1)仿真模型的搭建耗时严重,且受限于专家经验;2)未知热点模式造成热点库不完整,导致热点召回率低;3)基于机器学习算法的检测方法泛化性能低,且不同类别下样本数量分布不平衡问题会降低少样本类别检测识别的可靠性。为解决上述问题,本文以集成电路生产中的光刻版图为研究对象,结合图像处理和深度学习理论方法,分别从数据增强、模型优化、系统集成等角度,开展集成电路光刻版图热点检测研究。本文的主要工作归纳如下:针对热点样本和无热点样本不同类别样本数量分布不平衡的问题,开展基于混合数据增强模型和改进Goog Le Net模型的数据平衡方法研究。其中,混合数据增强模型结合几何变换和改进的生成对抗网络生成高质量辅助样本,Goog Le Net模型通过缩减尺寸和拆分卷积核结构改进Inception模块,增加模型提取特征多样性,并压缩计算耗时,最终提高热点检测精度。针对空间特征信息难以提取而造成检测准确率低的问题,在原始胶囊网络的基础上,引入残差网络和注意力机制网络思想,开展基于卷积块注意力机制的残差胶囊网络(CBAM-Res Caps Net)的光刻版图空间特征提取研究。其中,卷积块注意力机制使网络专注于任务关键信息,解决信息过载问题;残差模块有效避免深层网络模型训练中存在的梯度消失问题;胶囊网络利用胶囊矢量代替传统深度学习模型的神经元,以增强检测系统对版图空间特征的敏感性。针对传统Java开发软件系统存在的开发任务不明确、开发周期长等问题,开展基于Vue和Spring Boot框架的光刻版图热点检测软件研发,实现光刻版图数据预处理、检测分析等功能。其中,软件前端采用Vue渐进式框架,并结合现代化工具链和丰富第三方库,提高前端开发效率;软件后端采用Spring Boot框架,能够简化开发配置和规范开发流程,有效压缩开发周期。本文通过实验分析验证所提方法的有效性。结果表明,混合数据增强方法能够有效扩充热点样本,当热点样本和无热点样本比例为1:2时效果最佳,减少了数据不平衡对检测结果的影响;且改进的Goog Le Net模型与对比模型相比具有最高的召回率98.3%。针对现有模型难以提取空间特征问题,建立基于卷积块注意力机制的残差胶囊网络模型,相比于原始的胶囊网络模型,F1分数提升14.9%。在此基础上,搭建一套光刻版图热点检测原型验证软件,通过人机交互操作和测试,验证了所提检测模型的有效性和实用性。
基于深度学习的僵尸网络检测技术研究
这是一篇关于僵尸网络,僵尸网络检测,深度学习,时空特征,数据不平衡的论文, 主要内容为僵尸网络是僵尸主机(botmaster)远程控制的受感染主机集群。随着互联网的不断发展,以及物联网、智能终端、云平台、社交平台的发展,僵尸网络呈现出平台多样化、通信隐蔽、控制智能化的特点。除了包括基于端口扫描的技术和基于深度包检测技术等传统检测技术,近年来基于统计和基于网络行为的僵尸网络检测技术方面的研究日渐成熟。在基于统计和基于网络行为的研究中,研究人员使用多种特征建立可以识别僵尸网络的机器学习模型,并取得了很大进展。这些特征通常由研究人员在模型建立之前通过经验设定。在实验中发现这些检测模型具有较高的召回率。但是,也有一些缺点。首先,人工设计特征对研究者的专业知识有更高的要求。二是特定不变的特征也为攻击者提供了机会,攻击者可以有针对性地改变僵尸网络流量的特征,从而规避模型检测。僵尸网络形态和指挥控制机制正在逐渐进化增强,人工特征选择变得越来越困难。随着深度学习技术的飞速发展,神经网络、强化学习、知识图谱等方法正逐渐应用于僵尸网络检测领域。本文研究如何利用深度学习的方法提取有效的僵尸网络空间和时间二维特征以及如何处理多分类任务中数据集不平衡带来的F1值低的问题。本文的主要研究工作如下:1、介绍僵尸网络的特性以及危害,对以往研究文献进行分析和总结。详细介绍当前僵尸网络检测中涉及的技术及僵尸网络多分类任务中对不平衡数据集的处理方法;阐述特征提取和深度学习相关理论与技术,并对以往处理多分类数据集不平衡问题的方法进行对比研究。2、针对以往僵尸网络检测方法存在的泛化能力差,对特征依赖性强的问题,提出了基于时空残差网络的检测模型。用深层1DCNN和LSTM并行学习僵尸网络的空间和时间特征,并在层与层之间引入残差连接(shortcut connections),最终获得更高层次的特征表达。使用CTU-13数据集进行二分类和多分类任务,并使用异构数据集N-Ba Io T测试模型泛化性。3、针对现实中僵尸网络数据分布不平衡带来的多分类F1值低的问题,提出了结合G-SMOTE算法、多尺度一维卷积残差网络(Multi-scale One-dimension residual neural network,1DMs Res Net)的模型。该模型有效增加了对少数样本的学习,并且计算代价低。该实验使用了Bot-Io T数据集来检验模型对不平衡数据集的有效性。本文的创新之处如下:1、提出了一种新的僵尸网络检测模型,针对僵尸网络存在空间和时间二维特征,利用深层1DCNN和LSTM并行提取时空特征,然后用残差网络(Res Net)来解决网络退化问题。残差网络的捷径连接技术将融合的时空特征跨层传递,最终对输出的表征进行二分类和多分类。在多分类任务中,Res-1DCNN-LSTM模型在CTU-13和N-Ba Io T数据集上F1值比CNN和LSTM融合模型CNN-LSTM分别提高了0.63%和1.33%。2、提出了新的处理僵尸网络数据不平衡的模型。利用G-SMOTE过采样算法对少数样本进行过采样,然后用基于1DMs Res Net的模型对数据集进行Bot-Io T训练和测试。实验结果表明,在多分类任务中,G-SMOTE-1DMs Res Net模型的准确率比GRU模型提高了9.48%。
基于Stacking融合模型的用户重复购买行为预测研究
这是一篇关于行为数据,特征工程,数据不平衡,重复购买行为,Staking融合模型的论文, 主要内容为用户的重复购买行为一直是电商领域的研究热点。近年来电子商务平台快速发展,为人们购买商品提供了很大的便利性。然而随着入驻商家越来越多,用户面对种类繁多的商品需要花费大量时间,无法快速购买到适合自己的商品;对商家来说也无法识别潜在用户。因此对用户重复购买行为的研究不仅可以有助于商家找到哪些用户未来可能发生购买行为,从而达到精准营销的目的,同时可以帮助用户快速找到心仪商品。电商平台发展至今积累了大量的真实用户行为数据,这些数据中蕴含着用户的购买习惯和规律。通过研究根据电商平台用户的行为数据获得用户行为规律,使用Stacking融合模型来预测用户的重复购买行为,主要工作如下:(1)基于用户的行为数据构建特征工程。首先对原始的用户行为数据集进行预处理和可视化分析,初步研究用户行为数据集中蕴含的规律。在此基础上,分别从用户、商家以及用户与商家之间的关系三个维度挖掘特征,其中每个维度下从多个角度共构建了121个特征。由于原数据集中存在数据不平衡问题,因此使用改进后的Relief算法挑选出对少数类样本区分能力更强的特征,最后共选择103个特征作为模型的输入。(2)为了保证构建的Stacking融合模型具有良好的性能,在前期研究了十余个不同类型的模型,构建单个模型对用户重复购买行为进行预测,最后选择了预测效果较好的支持向量机、随机森林、XGBoost和Light GBM四种算法来训练Stacking融合模型的第一层基学习器,获得中间预测值作为第二层次级学习器的输入。为了不增加模型的复杂程度,次级学习器选用简单的逻辑回归来训练,降低模型的复杂度和过拟合的风险。(3)为了进一步提高模型的预测能力,对模型做出改进。首先由于原数据集中两类样本的数量差别较大,因此对传统的随机欠采样方式进行改进,结合Easy Ensemble采样核心思想与K-means算法来解决数据不平衡问题;其次本文加入滑动窗口动态更新样本,从而实现对用户重复购买行为的动态预测。(4)基于构建好的Stacking融合模型和改进模型,通过对比实验来验证模型的预测效果:首先在特征选择的基础上对比4个单预测模型与Stacking融合模型的预测效果,结果显示Stacking融合模型的预测效果均优于单预测模型;同时为了验证特征选择对模型预测效果的影响,对比特征选择前后Stacking融合模型的预测效果,实验结果显示使用改进的Relief算法选择特征后,模型的预测效果更好;其次将改进前后的融合模型进行对比,结果显示模型的预测效果有了进一步的提升。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码客栈 ,原文地址:https://bishedaima.com/lunwen/52263.html