面向对抗攻击的深度视觉模型鲁棒性研究
这是一篇关于对抗样本,深度神经网络,残差网络,注意力网络,鲁棒性的论文, 主要内容为对抗样本是指在干净样本中加入人眼无法察觉的扰动,使模型给出错误输出的输入样本。在对抗样本攻击下,模型的输出稳定程度被称为模型的对抗鲁棒性。在面临人为设计的对抗样本攻击时,模型容易出现性能严重下降甚至完全失效的情况,这给深度学习技术的应用带来了巨大的安全风险,因此研究深度学习模型的对抗鲁棒性具有重要意义。本文构建了以ResNet等经典深度神经网络为基础的分类模型,研究常见的模型结构(残差、注意力机制)和网络深度对模型对抗鲁棒性的影响,主要研究内容如下:(1)为研究经典深度神经网络的对抗鲁棒性,本文引入了相对平均损坏错误(Relative mean Corruption Error,Rm CE)评价标准。首先模型在CIFAR-10和ImageNet-1K数据集上进行学习,通过PGD攻击算法生成对抗样本,然后将干净样本和对抗样本分别输入网络模型中进行测试。在CIFAR-10与ImageNet-1K双数据集进行验证,结果证明ImageNet-1K数据集下对抗鲁棒性从高到低依次为Goog Le Net(Rm CE为0.969)、AlexNet(1.000)、VGG16(1.164)、VGG19(1.172)、ResNet50(1.206)。在CIFAR-10数据集下对抗鲁棒性从高到低为Goog Le Net(0.897)、VGG16(0.930)、AlexNet(1.000)、ResNet56(1.087)、ResNet20(1.127)。(2)为研究残差结构对模型鲁棒性的影响,本文首先以ResNet20/32/56为基础模型,将Res Net20/32/56三个模型更改为无残差模型和密集残差模型,共设计了九种不同结构的分类模型,接着生成PGD对抗样本和高斯椒盐噪声样本并进行分类。在CIFAR-10测试集下进行验证,实验结果表明,无残差模型对抗鲁棒性更高,比有残差模型的Rm CE平均下降了0.088,残差模型比密集残差模型对抗鲁棒性高,Rm CE平均下降了0.022。九种模型的对抗鲁棒性都随深度的增加而不断提升。无残差模型的噪声鲁棒性最好,相比残差模型Rm CE平均下降了0.162,密集残差模型噪声鲁棒性最差,相比于残差模型Rm CE上升了0.087。(3)为研究有无注意力和不同注意力机制对模型鲁棒性的影响,本文首先从通道、空间、混合注意力中选取了SENet、CBAM、ECANet、SKNet和SGE,分别添加到ResNet20/32/56的固定位置重构了十八种模型,然后使用PGD生成对抗样本并进行分类。在CIFAR-10测试集下进行验证,实验结果证明不同注意力机制对模型的对抗鲁棒性有不同的影响,其中SKNet会提升模型对抗鲁棒性,Rm CE平均下降了0.006,CBAM、ECANet和SGE加入ResNet20网络能够提升模型对抗鲁棒性,SENet会降低模型对抗鲁棒性,Rm CE平均上升了0.045,CBAM、ECANet、SGE在ResNet32/56网络会降低模型对抗鲁棒性。除SGE加入ResNet56中会降低模型噪声鲁棒性,其余加入注意力的模型都能提升噪声鲁棒性。
基于深度神经网络的唇语识别研究
这是一篇关于深度神经网络,唇语识别,DenseNet,长短时记忆网络,注意力机制的论文, 主要内容为唇语识别(Lip Reading)也被称为唇读,指从一组动态的嘴唇形状图像中提取有用的特征信息,用于识别嘴唇的动态变化,从而得到发音内容。近年来各类深度神经网络的引入给唇语识别研究带来了巨大的突破,其极大的研究应用价值也吸引了众多研究者投入该领域。然而在现实场景中,嘴唇区域容易受到背景噪声、姿态变化、运动模糊等因素的影响,传统的方法难以有效提取图像视觉特征以及时序特征,从而使得唇语识别的准确性较低,针对上述问题,本文对孤立单词和连续句子两类识别任务在深度神经网络领域展开了相关研究,最终达到提高唇语识别准确率的目的。本文的主要研究内容与贡献如下:(1)本文针对孤立单词级识别任务提出了一种融合3D-CBAM-DenseNet和Mogrifier LSTM的端到端单词级唇语识别模型。该模型由前端和后端两个模块组成,前端网络中使用3D CNN加DenseNet并结合通道注意力模块和空间注意力模块对嘴部区域视觉特征与潜在高层次抽象特征表示进行提取,后端网络中使用双层BiMogrifier LSTM结合全局信息捕获输入图像上下文之间的时序特征。在此基础上提出一种Mix Up与Fence Mask相结合的数据增强方法,从而进一步提高模型的鲁棒性。实验结果表明,该算法模型能够有效提高单词级唇语识别精度,在LRW数据集上达到了87.2%的单词识别准确率。(2)本文针对连续句子识别任务提出一种融合单词级唇读特征提取和改进Lip Net的端到端句子级唇语识别模型Lip Net++。本文在单词级唇语识别研究的基础上针对更加复杂与更加贴近真实需求的句子级唇语识别展开了进一步研究,Lip Net++使用级联时序分类器CTC进行端到端训练,并引入注意力机制模块对CTC提出改进,提出一种双分支3D CNN结构使用不同时间尺度对短时时空特征进行提取。在GRID数据集上,该模型CER和WER分别为1.1%和2.2%,性能优于其他方法。(3)为了将提出的唇语识别算法模型应用于实际场景中,本文实现了一个基于Web的唇语识别系统,该系统基于B/S架构,支持跨平台使用。用户可以通过浏览器进入系统,实现对输入视频的唇语识别。
基于注意力机制的多尺度点云分类方法研究
这是一篇关于注意力机制,Transformer,点云分类,深度神经网络,交叉注意力机制,局部特征,全局特征的论文, 主要内容为点云作为一种重要的几何数据形式,有效地提取其丰富的几何信息是各类点云数据处理问题的关键。点云几何信息包括点的空间位置关系、点特征通道之间的关系、点云局部几何结构关系。针对目前三维点云分类方法未能综合利用上述点云几何信息,提出了一种基于注意力机制的多尺度点云分类模型,以综合利用点空间位置关系、点特征通道之间的关系、点云局部几何结构之间的关系。首先,通过最远点采样和K最近邻算法获取多尺度点云块。其次,通过点注意力和通道注意力融合模块获取点云局部特征。然后,通过Transformer编码器进行每种尺度局部点云块之间的信息交互得到单一尺度点云块交互后的嵌入序列。最后,使用交叉注意力融合模块进行多尺度点云块特征融合。点注意力和通道注意力融合模块结合点空间和通道关系,有效提取点云局部几何信息;交叉注意力融合模块在一次时间复杂度下,能有效融合多尺度局部点云块特征以生成全局特征。在点云识别基准测试中,在Model Net40和Scan Object NN数据集中分别取得了93.9%和82.8%的准确率;在Shape Net Core v2数据集上进行预训练,然后在Model Net40和Scan Object NN数据集上微调,准确率分别达到94.3%和83.5%,相比之前方法取得了非常有竞争力的表现。因此,所提出的模型能有效捕捉点云不同几何结构的语义信息,使点云识别结果更加准确。该论文有图32幅,表12个,参考文献63篇。
视觉任务驱动的图像处理系统设计与实现
这是一篇关于计算机视觉,深度神经网络,端到端图像处理,卷积神经网络加速器的论文, 主要内容为近年来,机器视觉算法被广泛应用。实践中,由图像传感器捕捉的图像信号,经过图像处理器优化后,传递给机器视觉算法进行感知推理。视觉任务所依靠的传统图像处理系统一般基于人类视觉系统进行校准。然而,在越来越多的应用场景中,研究人员发现,单纯追求取悦人类的图像处理效果有时会影响视觉任务的识别精度,甚至使其严重下降。与此同时,视觉任务经常部署在条件复杂的场景之中,成像质量受环境影响很大,这要求图像处理算法能够动态适应场景变化,在复杂条件下提升视觉任务的推理精度。为了解决以上挑战,本文从视觉系统的基础理论出发,讨论造成机器视觉任务精度下降的因素。本文对比和讨论了传统的、面向人类视觉系统的与面向机器视觉任务的图像处理算法的设计和实现。本文对动态场景建立了数学模型,并以此合成训练数据。本文提出了具有一定适应性的视觉任务驱动的图像处理算法框架,能在不进行重训练的情况下,耦合大部分现有的机器视觉任务,通过端到端的训练,以较低计算成本得到对应的图像处理算法参数,提高相应机器视觉任务的识别精度。在框架内,本文提出的轻量化在线图像处理算法,能够根据场景成像条件变化在线调整算法参数,大大提升视觉任务在动态场景中的识别精度。为了压缩模型体积,提高算法吞吐,本文提出启发式算法探索模型结构设计空间,确定算法性能与运行成本之间的最优解。为了验证算法在实际部署中的性能表现,本文基于主流的CPU+FPGA硬件加速平台,实现了本文所提算法的运行实例。本文提出的轻量化在线图像处理算法使用Res Net-50分类网络作为视觉任务对象,在Image Net数据集上进行了测试。测试结果表明,本文提出的处理算法相比通用的神经网络图像处理算法,在五种跨度达1000倍的光照条件下实现了3.7%至8.2%Top-1精度的提升。在照度范围从3至3000 lux变化的动态光照条件下,增加了在线适应能力的算法将Top-1准确率进一步提升了7.56%。基于Xilinx DPUCZDX8G实现的算法加速实例,达到了310 GOPs/W能效比,和最高6.2×107pixel/s图像处理能力。
结合序列数据与注意力机制的点击率预测技术研究
这是一篇关于点击率预测,序列数据,深度神经网络,注意力机制的论文, 主要内容为推荐系统是数据挖掘的应用分支,为用户提供个性化服务,旨在帮助每一个用户在海量的数据中筛选出合适的信息。其核心任务在于从丰富的日志数据中组合使用各种算法策略挖掘潜在信息。点击率预测算法是一种常见的推荐策略,该方法通过计算商品或广告的被点击概率并从高至低排序,得到最终的推荐列表。点击率预测算法的性能直接决定了推荐系统的优越性。在电子商务的应用背景下,除物品特征外,丰富的用户历史行为数据给予点击率预测任务更多的可能性,如何从用户行为序列中挖掘用户兴趣是点击率预测技术的新兴研究方向。论文结合注意力机制与用户行为序列数据,研究了个性化商品点击率预测算法,并将其应用于实时购物推荐系统。通过分析点击率预测算法的研究现状,指出了基于特征交互方法的性能瓶颈。现有的基于用户行为序列的点击率预测方法忽视了重要的时间信息,针对序列数据的时间特征,论文将序列内部任意两个行为的时间差构造为相对时间图,设计了结合时间特征的自动嵌入编码器,用于提高特征的表达能力。为解决用户原始行为序列在预测用户未交互物品上的局限性问题,论文对多特征融合技术进行了研究,设计了多特征融合的兴趣进化模块,用于模拟用户行为序列单位时间的变化,该模块能够以信息无损的方法将相对时间图中的时间特征融入注意力权重计算过程中。在此基础上,论文提出了时间感知的点击序列网络(TACSN,Time-aware Attentive Click Sequence Network),该模型结合了序列数据与注意力机制,利用时间特征增强注意力计算结果,分别经过泛化行为序列数据和提取用户兴趣两个过程,得到最终的点击概率。论文将提出的模型与多个基准模型作对比实验,实验结果证明了模型的有效性。通过消融实验验证了各个模块对模型做出的贡献,并利用网格搜索方法寻求模型中超参数的最优解。论文设计并实现了购物推荐系统,该系统利用论文提出的模型,动态生成用户感兴趣的物品列表,提升了商品被点击的概率,验证了模型在实际应用中的可行性。具体来说,论文的主要工作包含以下几个方面。(1)研究了离散时间特征的嵌入向量生成方法。在分析不同嵌入模型的优缺点的基础上,设计了时间特征的自动嵌入编码器。该编码器能计算出每一个特征值在一个嵌入变量组上的概率分布,并用聚合函数得到最终的嵌入向量表达,解决了连续特征嵌入向量在表征容量和模型复杂度上的平衡问题。(2)研究了信息无损的特征融合方法。在注意力权重计算过程中,利用融合函数将时间特征与其他物品特征融合,并将权重分配给原始的物品特征。使模型在学习多特征信息的同时避免了模糊物品原本的语义,提升了序列模型的数据表示能力。(3)研究了时间感知的点击序列网络。将序列内的行为作为图的节点,行为发生的时间差作为边,构造相对时间图。为了增强时间特征并模拟用户兴趣的演化过程,将图以信息无损的方式融入Transformer的自注意力模块,称作相对时间感知的Transformer,该模块能够利用时间差信息模拟用户行为单位时间后的变化。在此基础上,提出了时间感知的点击序列网络TACSN,该模型利用相对时间感知的Transformer,增强序列行为的表达,利用注意力机制学习序列中的物品和待预测物品的相似性,相较于其他方法能够更深层次地挖掘用户兴趣,提高点击率预测的准确性。(4)对相关算法进行了对比实验。论文在两个真实数据集上进行了多个算法之间的比较实验,结果表明本文提出的TACSN在所有的评价指标上都取得了最优。论文设计了消融实验,验证了所提出的各个模块的有效性。通过设计多组实验,研究了用户行为长度对模型的影响,得到了在不同数据集上最优的行为序列长度。最后本文展示了各模块的超参数训练过程和参数最优值。(5)基于论文提出的TACSN模型,设计并实现了购物推荐系统。系统包括购物模块、推荐模块和后台管理模块。基于前后端框架构建基础应用服务,利用大数据框架实现在线商品推荐功能,从而验证了模型在实际应用中的可行性。
基于正交约束的模型版权保护方法研究及实现
这是一篇关于深度神经网络,知识产权保护,所有权验证,人工智能安全的论文, 主要内容为随着科技的发展,深度学习模型已被广泛应用于自动驾驶、图像识别等领域。然而训练一个性能优秀的模型是极其不易的,数据标注及预处理、损失函数设计、网络结构搭建要求模型训练者具备丰富的先验知识,在模型训练阶段同样需要花费大量的时间和计算资源,训练代价昂贵,该类模型很容易成为攻击者的目标,被非法复制、分发,导致模型训练者受到版权侵权和经济损害。神经网络水印作为保护深度学习模型版权的主要手段,存在问题:水印嵌入方法与模型功能结合不够紧密,安全性较差,对微调、剪枝等基于权重的攻击不够鲁棒,而增强水印与功能的关联往往会导致宿主模型的精确度下降。基于上述问题,本文提出了相关性强、鲁棒性高且不会损失模型性能模型版权保护方法,并基于该方法与黑盒水印通用方法开发了神经网络水印系统。主要工作如下:(1)提出了基于正交约束的神经网络水印嵌入和验证方法,方法主要包括水印嵌入和版权验证两个部分。在水印嵌入阶段,首先构建新的水印层加强水印与模型结构的关联,使水印不易被移除;然后结合水印约束特征向量,使部分特征向量具有正交性,提高水印的鲁棒性,并促进特征多样化提高了模型性能。在版权验证阶段,水印的提取不依赖指定数据集,输入模型任务样本后,通过分析特征向量相关性提取水印,由于水印的存在形式为抽象的内在相关性,因此减少了水印对权重的依赖。实验结果表明,水印具有较高的稳健性,该方法满足了保真性、可靠性、完整性和鲁棒性,能够有效抵御伪造攻击。(2)设计并实现了支持水印嵌入及版权验证的神经网络水印系统,该系统集成了本文提出的白盒方法及黑盒通用方法,提供两种方法下的水印嵌入、版权验证、水印鲁棒性检测等服务,包括触发集制作、自定义模型结构搭建、可视化训练、模型管理、模型/图片上传下载等功能。系统采用Vue+Flask前后端分离开发框架降低前后端耦合度,使用Mysql管理数据,有效实现了模型、触发样本的线上存储。系统的开发为保护模型的版权提供支持,使水印嵌入、验证过程更加清晰,并且优化了模型的管理,提高了用户的操作效率。
面向对抗攻击的深度视觉模型鲁棒性研究
这是一篇关于对抗样本,深度神经网络,残差网络,注意力网络,鲁棒性的论文, 主要内容为对抗样本是指在干净样本中加入人眼无法察觉的扰动,使模型给出错误输出的输入样本。在对抗样本攻击下,模型的输出稳定程度被称为模型的对抗鲁棒性。在面临人为设计的对抗样本攻击时,模型容易出现性能严重下降甚至完全失效的情况,这给深度学习技术的应用带来了巨大的安全风险,因此研究深度学习模型的对抗鲁棒性具有重要意义。本文构建了以ResNet等经典深度神经网络为基础的分类模型,研究常见的模型结构(残差、注意力机制)和网络深度对模型对抗鲁棒性的影响,主要研究内容如下:(1)为研究经典深度神经网络的对抗鲁棒性,本文引入了相对平均损坏错误(Relative mean Corruption Error,Rm CE)评价标准。首先模型在CIFAR-10和ImageNet-1K数据集上进行学习,通过PGD攻击算法生成对抗样本,然后将干净样本和对抗样本分别输入网络模型中进行测试。在CIFAR-10与ImageNet-1K双数据集进行验证,结果证明ImageNet-1K数据集下对抗鲁棒性从高到低依次为Goog Le Net(Rm CE为0.969)、AlexNet(1.000)、VGG16(1.164)、VGG19(1.172)、ResNet50(1.206)。在CIFAR-10数据集下对抗鲁棒性从高到低为Goog Le Net(0.897)、VGG16(0.930)、AlexNet(1.000)、ResNet56(1.087)、ResNet20(1.127)。(2)为研究残差结构对模型鲁棒性的影响,本文首先以ResNet20/32/56为基础模型,将Res Net20/32/56三个模型更改为无残差模型和密集残差模型,共设计了九种不同结构的分类模型,接着生成PGD对抗样本和高斯椒盐噪声样本并进行分类。在CIFAR-10测试集下进行验证,实验结果表明,无残差模型对抗鲁棒性更高,比有残差模型的Rm CE平均下降了0.088,残差模型比密集残差模型对抗鲁棒性高,Rm CE平均下降了0.022。九种模型的对抗鲁棒性都随深度的增加而不断提升。无残差模型的噪声鲁棒性最好,相比残差模型Rm CE平均下降了0.162,密集残差模型噪声鲁棒性最差,相比于残差模型Rm CE上升了0.087。(3)为研究有无注意力和不同注意力机制对模型鲁棒性的影响,本文首先从通道、空间、混合注意力中选取了SENet、CBAM、ECANet、SKNet和SGE,分别添加到ResNet20/32/56的固定位置重构了十八种模型,然后使用PGD生成对抗样本并进行分类。在CIFAR-10测试集下进行验证,实验结果证明不同注意力机制对模型的对抗鲁棒性有不同的影响,其中SKNet会提升模型对抗鲁棒性,Rm CE平均下降了0.006,CBAM、ECANet和SGE加入ResNet20网络能够提升模型对抗鲁棒性,SENet会降低模型对抗鲁棒性,Rm CE平均上升了0.045,CBAM、ECANet、SGE在ResNet32/56网络会降低模型对抗鲁棒性。除SGE加入ResNet56中会降低模型噪声鲁棒性,其余加入注意力的模型都能提升噪声鲁棒性。
电网工程大数据处理及知识图谱应用技术研究
这是一篇关于基建工程,信息抽取,命名实体识别,共指消解,关系抽取,深度神经网络,谱聚类,依存关系,知识图谱的论文, 主要内容为电网基建工程项目具有规模大、周期长且涉及主体多等特点,因此决定了电网工程从设计、施工到验收的全流程中将产生大量来源丰富、格式复杂多样的数据,包括设计说明书、试验报告以及设备清册等。这些数据将在建设项目结束后移交给供电企业,是供电企业运行维护和资产管理系统的重要原始数据源。从电网基建工程项目移交的非结构化文本数据和半结构化表格数据中,可以获取与电网拓扑、资产、设备相关的知识,用作发展、运检、调度、财务等系统的数据源。然而,由于缺乏有效的数据抽取和整理技术手段,使得这些数据成果查找方式单一、关联查询困难,无法直观的进行展现。因此,亟需研究有效的信息抽取技术,实现自动化地分析电网基建工程文本数据中所包含的自然语义,挖掘其中所蕴藏的有价值的信息,进而构建基建工程数据知识图谱,实现层次化存储、可视化展示以及关联信息推荐,同时为运检、调度、财务等业务系统的数据采集提供新的结构化数据来源。本文以含有噪声的多源异构基建工程数据为研究对象,依托自然语言处理技术,对于信息抽取的模型及方法和知识图谱构建技术展开了研究。首先,针对交互文件中难以被人工分析的工程非结构化自然文本语言数据、不规范的半结构化表格数据进行预处理,通过数据清洗去除原始低质量数据中的噪声,进而构建skip-gram模型,将文本数据转换为适合挖掘的包含上下文语义信息的词嵌入向量形式,并通过仿真验证了效果。其次,针对自然语言文本信息抽取问题,预定义了所需的命名实体类型,在此基础上,构建了有监督的机器学习模型,将命名实体识别视为序列标注任务。针对识别后的实体歧义与冗余问题,提出了指称对模型进行共指消解。为了识别命名实体之间的语义关系,提出了一种基于图论的分析模型,在实体节点和关系边组成的树中寻找分值最高的依存关系的组合,从而完成三元组的抽取。并通过算例验证其效果。最后,针对抽取后的知识存储及知识表达问题,创新性的提出基于Neo4j原生图数据库构建基建工程知识图谱,包含属性图模型的数据层,和可视化展示的模式层。该图谱将不同类型文件中的自然语言转化为语义知识库中的节点和关系,并且能够实现智能搜索以及关联信息推荐功能。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码海岸 ,原文地址:https://bishedaima.com/lunwen/47783.html