基于注意力机制的多尺度点云分类方法研究
这是一篇关于注意力机制,Transformer,点云分类,深度神经网络,交叉注意力机制,局部特征,全局特征的论文, 主要内容为点云作为一种重要的几何数据形式,有效地提取其丰富的几何信息是各类点云数据处理问题的关键。点云几何信息包括点的空间位置关系、点特征通道之间的关系、点云局部几何结构关系。针对目前三维点云分类方法未能综合利用上述点云几何信息,提出了一种基于注意力机制的多尺度点云分类模型,以综合利用点空间位置关系、点特征通道之间的关系、点云局部几何结构之间的关系。首先,通过最远点采样和K最近邻算法获取多尺度点云块。其次,通过点注意力和通道注意力融合模块获取点云局部特征。然后,通过Transformer编码器进行每种尺度局部点云块之间的信息交互得到单一尺度点云块交互后的嵌入序列。最后,使用交叉注意力融合模块进行多尺度点云块特征融合。点注意力和通道注意力融合模块结合点空间和通道关系,有效提取点云局部几何信息;交叉注意力融合模块在一次时间复杂度下,能有效融合多尺度局部点云块特征以生成全局特征。在点云识别基准测试中,在Model Net40和Scan Object NN数据集中分别取得了93.9%和82.8%的准确率;在Shape Net Core v2数据集上进行预训练,然后在Model Net40和Scan Object NN数据集上微调,准确率分别达到94.3%和83.5%,相比之前方法取得了非常有竞争力的表现。因此,所提出的模型能有效捕捉点云不同几何结构的语义信息,使点云识别结果更加准确。该论文有图32幅,表12个,参考文献63篇。
基于多特征融合的人脸伪造检测算法研究
这是一篇关于人脸伪造检测,注意力机制,局部特征,深度特征,特征融合的论文, 主要内容为伪造检测作为人脸识别系统的防御手段,近年来得到迅速发展。随着深度伪造技术生成的图像或者视频越来越接近真实人脸,人脸伪造检测面临着巨大的挑战。为了应对复杂多变的伪造技术,本文通过将两种或者两种以上的特征进行融合来提高伪造人脸检测的准确率,主要研究内容如下:首先针对单一特征的局限性,提出一种基于注意力机制的伪造检测算法。算法通过加入注意力机制获取图像的局部特征,并将局部特征和主干网络获取到的全局特征进行结合,以进行人脸图像的伪造检测;其中全局特征选取Xception Net或者Res Net等主干网络获取;而局部特征是由在主干网络的基础上加入注意力机制获取,并引入多样性损失函数来迫使注意力图关注人脸不同区域,发现更多伪影特征。最后在Face Forensics++数据集上进行实验,提出的算法在不同主干网络上的检测精度均有所提升,其中基于Res Net-50主干网络的伪造检测算法在Face Forensics++c40上的测试精度可达94.93%,在Face Forensics++c23的测试精度可达98.36%;说明提出的算法用于检测伪造人脸是可行的。针对单一纹理特征或者深度特征不能很好地应对当前多样伪造技术的问题,提出了一种将增强后的纹理特征和深度特征进行融合的算法。提出的算法首先是采用Efficient Net-V2网络提取像素级图像中的浅层特征;其次将浅层特征输入深层网络和纹理增强模块两个分支中获取不同层次的伪影特征,并使用双线性池化将高维信息和低维信息进行融合;最后提出的算法分别在FFIW10K和Face Forensics++数据集上进行验证实验,在两个数据集上的准确率都取得了较好的结果,其中在Face Forensics++c23上的测试精度可达98.43%,在FFIW10K数据集上的测试精度可达95.56%,通过在两个数据集上进行实验,验证了提出算法的有效性。为了充分利用人脸区域中的全局、局部特征,使得局部特征在伪造检测过程中作为辅助信息指导全局特征,发现更多具有辨别性的差异特征,提出了基于多维度特征融合的伪造检测算法。提出的算法包括两部分;其一是由轻量级网络Mobile Net-V3生成局部激活图来获取局部特征,其二是由Xception Net提取的纹理深度特征融合成全局特征,将这两部分融合后得到多个维度的特征并用于检测真伪人脸;实验结果表明,提出的算法在Face Forensics++数据集上取得了良好的性能,在Face Forensics++c23上的测试精度可达98.75%,这一结果说明提出的算法具有较强的分类能力。
基于深度学习的自上而下的人体姿态估计
这是一篇关于人体姿态估计,卷积神经网络,Transformer,局部特征,全局特征的论文, 主要内容为人体姿态估计任务旨在从图片或者视频中定位出人体的关节点。目前,基于深度学习的人体姿态估计算法识别精度高、运行速度快,成为该领域的主流算法。因此,当下人体姿态估计算法的发展往往与深度学习技术的发展息息相关。Transformer框架的提出对计算机视觉的相关领域产生了重要影响,这其中就包括对人体姿态估计领域的影响。卷积神经网络(CNN)和Transformer作为两种运算逻辑不同的特征提取器,各具特色、各有所长。如何充分发挥两种特征提取器的特长从而更好的服务于计算机视觉的相关领域,是众多计算机视觉研究者正在探讨的课题。本文以基于深度学习的自上而下的人体姿态估计方法为立足点,深入探究CNN与Transformer的融合框架在人体姿态估计领域中的应用。针对如何融合CNN与Transformer两种框架来实现高性能的人体姿态估计以及如何改进Transformer自身缺陷的问题,本文提出以下解决方案:(1)本文提出了基于聚合Transformer与关键点提纯的人体姿态估计网络。为了充分利用CNN的局部特征提取能力和Transformer的全局特征提取能力,我们将CNN和Transformer进行串联组合:先使用Res Net提取局部特征,再使用聚合Transformer提取全局特征。聚合Transformer是我们为姿态估计任务设计的一种Transformer变体,我们在其Decoder中嵌入局部融合模块和关键点头来进一步提取局部特征和细化关键点坐标。(2)本文提出了基于并行架构与混合特征的人体姿态估计网络。不同于上一章的串行组合,我们在本章提出了一种将CNN与Transformer并联的架构来实现人体姿态估计。我们在Inception结构基础上引入注意力机制分支来提取全局特征,同时保留原始分支来提取局部特征,随后将各个分支提取的特征图进行追加混合并送入后续模块进行识别。除此之外,我们采用了Simdr表示法来预测关键点的坐标信息,并使用KL散度损失函数来优化网络参数。(3)本文提出了基于ViTPose与渐进式采样策略的人体姿态估计网络。原始Transformer架构的Patch Embedding模块对特征图进行序列化时,下采样因子过大从而导致大量特征信息损失。为此,我们设计了Gradual Embedding模块来取代原有的Patch Embedding模块,前者采用了渐进式采样的策略来逐步减小特征图的尺寸,从而有效缓解特征信息损失的问题。另外,我们设计了同样采用渐进式采样策略的局部融合模块来替换原有的转置卷积,并联合双线性插值与最大反池化层来还原更精细的heatmap。
局部语义感知的细粒度草图检索
这是一篇关于草图检索,细粒度,局部语义,局部特征的论文, 主要内容为随着互联网上图像内容的急速增加,图像检索需求日益增加。目前主要的图像检索方法包括基于文本的图像检索和基于内容的图像检索。然而,基于文本的图像检索在检索复杂图像时存在困难,且需要大量人力进行标注;基于内容的图像检索也面临着获取输入图像的困难。与文本和自然图像不同,手绘草图表意丰富且易于获取,因此草图检索成为了一种更为理想的图像检索方法。草图检索可以分为粗粒度和细粒度两种,其中细粒度草图检索能更好地捕捉用户需求,其检索难度也更大。针对这一任务,研究人员主要采用基于度量学习的方法,即先提取全局特征,再通过优化将特征映射到一个统一的特征空间。然而,全局特征的使用导致模型只能感知全局语义,难以很好地感知更为重要的局部语义。因此,本文旨在研究局部语义感知的细粒度草图检索。为了让模型感知局部语义,本文创新性地提出使用局部特征完成细粒度草图检索任务,并提出了动态局部对齐网络(DLA-Net)。DLA-Net由局部特征提取器和动态对齐模块这两个部分组成。局部特征提取器使用ResNet50的中层特征图和局部L2正则化获取局部特征,动态对齐模块通过跨模态交互找到特征间的匹配关系,借此解决空间错位问题。实验表明DLA-Net在常用数据集上的检索准确率大幅超越了已有方法,并且其检索准确率首次在所有数据集上超越了人类。对于检索任务,检索时间也是需要考虑的重要指标。局部特征在大幅提升DLA-Net检索准确率的同时也降低了其检索速度,为此本文提出了针对局部特征的检索效率提升方法,该方法包含自交互背景特征消除模块和特征降维模块。自交互背景特征消除模块利用图像中前背景区域的先验信息定位并消除背景局部特征,特征降维模块使用1 × 1卷积降低特征维度,并使用二阶段的方式进行训练。实验表明这两个模块可以在保证DLA-Net检索准确率的同时大幅提升检索效率。最后,本文还基于上述提出的方法开发了细粒度草图检索系统,通过该系统对细粒度草图检索的落地应用进行了探索。
融合多属性和局部特征的车辆重识别系统设计与实现
这是一篇关于车辆重识别,深度学习,局部特征,索引构建的论文, 主要内容为随着物联网飞速发展,海量的监控视频实时产生,传统人工检索和跟踪违法犯罪车辆耗费大量的人力和时间成本。因此,研究车辆重识别系统具有重要意义。车辆重识别本质上是一个图像检索问题,通过用户输入的车辆图像,从图库集中检索出其他摄像头拍摄的同一车辆图像。车辆重识别是计算视觉领域的重要研究方向,在交通安全、车辆跟踪等领域有着广泛的应用基础。但目前车辆重识别任务存在着不同摄像头下视角差异性大,局部特征提取不充分,检索耗时等问题。本文基于深度学习对重识别问题展开了研究,主要研究内容如下:(1)为了缓解车辆在不同视角下存在的差异性问题,本文利用带有丰富属性标注的合成数据集辅助车辆重识别任务。然而,合成数据与真实数据存在差异,导致模型的泛化能力受到限制。本文引入了领域自适应的对抗性训练,以充分利用合成数据集的标签,并提升真实数据集的属性识别能力。同时,研究了不同属性对于重识别的重要性,并采用注意力机制构建属性对最终识别效果之间的权重关系,以提升车辆重识别效果。(2)针对目前车辆重识别局部特征提取不充分的问题,结合车辆特有的方向信息提出一种方向性特征丢弃分支,该分支通过判断车辆的不同方向生成对应的Mask矩阵,迫使网络通过提取更广泛区域的局部特征进行重识别,最终有效提高车辆重识别效果。(3)设计并实现车辆重识别系统,根据用户输入的车辆图像,能够输出车辆相关的属性信息,并从图库中检索出目标车辆的其他图像。为了提高海量数据的检索效率,系统采用了向量索引技术,有效提升图像的检索效率。最后,对系统进行完整的功能测试和非功能测试,并展示了相关模块的操作界面。测试结果表明,本系统的功能能够满足需求,可以有效地帮助办案人员进行快速车辆检索,降低人工成本。
基于深度学习的行人重识别技术研究
这是一篇关于行人重识别,轻量网络,局部特征,全局特征,跨模态,注意力机制的论文, 主要内容为行人重识别(Person Re-identification,Person Re ID)作为计算机视觉领域中一个非常重要的研究方向,其主要目标是解决在跨摄像头和跨场景下行人的识别和检索问题,可以广泛应用于安防监控和刑事侦查等领域。本文利用深度学习技术,对行人重识别领域存在的难点展开研究,主要的工作如下:(1)针对目前轻量级行人重识别模型识别效果差的问题,本文提出了一种结合全局与局部特征的轻量级行人重识别方法。该方法以OSNet(Omni-scale Network)为基础,设计了CGLF-OSNet(OSNet that Combines Global and Local Features)网络,包含全局特征提取和局部特征提取:在全局特征提取时引入改进的PAN模块,能够更好地融合不同层次的特征;在局部特征提取时使用滑动窗口思想对特征图进行阶梯分块,使模型在学习局部区域的细粒度特征时还能保留区域之间的关联信息。同时,通过交叉熵损失(Cross Entropy)和难样本挖掘的三元组损失(Triplet Loss with Batch Hard Mining)共同指导模型训练,可以更好地挖掘行人图像之间的细粒度差异信息。实验结果表明,本文提出的方法可以在参数量远少于常规网络的同时保持较高的识别准确率。(2)针对当前跨模态行人重识别模型性能普遍较差的问题,本文提出一种基于三重注意力机制(Triple Attention Mechanism,TAM)的跨模态行人重识别方法,该方法以Res Net50为骨干网络,设计了TAM-Net网络。TAM-Net采用双流网络结构,以更好地提取不同模态的特征,并利用网络参数共享的方式,将多模态特征映射到公共特征空间。此外,通过设计三重注意力模块来加强特征学习,可以使模型在训练过程中更关注目标的显著性特征。最后采用交叉熵损失、加权正则化三元组损失(Weighted Regularization Triplet Loss)和异质中心损失(Hetero-center Loss)共同指导模型的训练,使模型能够更好地学习不同模态间的共享特征。实验结果表明,本文方法在跨模态行人重识别任务中具有更高的识别准确率。(3)主流行人重识别方法只能处理分割好的行人图像,无法实现对监控视频的检索,基于此,本文在第三章和第四章提出的行人重识别方法基础上设计并实现了一个面向视频监控场景的行人重识别系统。由于监控场景下采集的视频数据包含较多的背景干扰信息,无法直接输入到行人重识别模型中,本文将目标检测算法与行人重识别算法结合,采用实时目标检测网络YOLOv7对视频中出现的行人进行检测,并将检测到的行人信息输入到行人重识别模型中,从而实现对视频中目标行人的检索。
融合多属性和局部特征的车辆重识别系统设计与实现
这是一篇关于车辆重识别,深度学习,局部特征,索引构建的论文, 主要内容为随着物联网飞速发展,海量的监控视频实时产生,传统人工检索和跟踪违法犯罪车辆耗费大量的人力和时间成本。因此,研究车辆重识别系统具有重要意义。车辆重识别本质上是一个图像检索问题,通过用户输入的车辆图像,从图库集中检索出其他摄像头拍摄的同一车辆图像。车辆重识别是计算视觉领域的重要研究方向,在交通安全、车辆跟踪等领域有着广泛的应用基础。但目前车辆重识别任务存在着不同摄像头下视角差异性大,局部特征提取不充分,检索耗时等问题。本文基于深度学习对重识别问题展开了研究,主要研究内容如下:(1)为了缓解车辆在不同视角下存在的差异性问题,本文利用带有丰富属性标注的合成数据集辅助车辆重识别任务。然而,合成数据与真实数据存在差异,导致模型的泛化能力受到限制。本文引入了领域自适应的对抗性训练,以充分利用合成数据集的标签,并提升真实数据集的属性识别能力。同时,研究了不同属性对于重识别的重要性,并采用注意力机制构建属性对最终识别效果之间的权重关系,以提升车辆重识别效果。(2)针对目前车辆重识别局部特征提取不充分的问题,结合车辆特有的方向信息提出一种方向性特征丢弃分支,该分支通过判断车辆的不同方向生成对应的Mask矩阵,迫使网络通过提取更广泛区域的局部特征进行重识别,最终有效提高车辆重识别效果。(3)设计并实现车辆重识别系统,根据用户输入的车辆图像,能够输出车辆相关的属性信息,并从图库中检索出目标车辆的其他图像。为了提高海量数据的检索效率,系统采用了向量索引技术,有效提升图像的检索效率。最后,对系统进行完整的功能测试和非功能测试,并展示了相关模块的操作界面。测试结果表明,本系统的功能能够满足需求,可以有效地帮助办案人员进行快速车辆检索,降低人工成本。
基于多特征融合的人脸伪造检测算法研究
这是一篇关于人脸伪造检测,注意力机制,局部特征,深度特征,特征融合的论文, 主要内容为伪造检测作为人脸识别系统的防御手段,近年来得到迅速发展。随着深度伪造技术生成的图像或者视频越来越接近真实人脸,人脸伪造检测面临着巨大的挑战。为了应对复杂多变的伪造技术,本文通过将两种或者两种以上的特征进行融合来提高伪造人脸检测的准确率,主要研究内容如下:首先针对单一特征的局限性,提出一种基于注意力机制的伪造检测算法。算法通过加入注意力机制获取图像的局部特征,并将局部特征和主干网络获取到的全局特征进行结合,以进行人脸图像的伪造检测;其中全局特征选取Xception Net或者Res Net等主干网络获取;而局部特征是由在主干网络的基础上加入注意力机制获取,并引入多样性损失函数来迫使注意力图关注人脸不同区域,发现更多伪影特征。最后在Face Forensics++数据集上进行实验,提出的算法在不同主干网络上的检测精度均有所提升,其中基于Res Net-50主干网络的伪造检测算法在Face Forensics++c40上的测试精度可达94.93%,在Face Forensics++c23的测试精度可达98.36%;说明提出的算法用于检测伪造人脸是可行的。针对单一纹理特征或者深度特征不能很好地应对当前多样伪造技术的问题,提出了一种将增强后的纹理特征和深度特征进行融合的算法。提出的算法首先是采用Efficient Net-V2网络提取像素级图像中的浅层特征;其次将浅层特征输入深层网络和纹理增强模块两个分支中获取不同层次的伪影特征,并使用双线性池化将高维信息和低维信息进行融合;最后提出的算法分别在FFIW10K和Face Forensics++数据集上进行验证实验,在两个数据集上的准确率都取得了较好的结果,其中在Face Forensics++c23上的测试精度可达98.43%,在FFIW10K数据集上的测试精度可达95.56%,通过在两个数据集上进行实验,验证了提出算法的有效性。为了充分利用人脸区域中的全局、局部特征,使得局部特征在伪造检测过程中作为辅助信息指导全局特征,发现更多具有辨别性的差异特征,提出了基于多维度特征融合的伪造检测算法。提出的算法包括两部分;其一是由轻量级网络Mobile Net-V3生成局部激活图来获取局部特征,其二是由Xception Net提取的纹理深度特征融合成全局特征,将这两部分融合后得到多个维度的特征并用于检测真伪人脸;实验结果表明,提出的算法在Face Forensics++数据集上取得了良好的性能,在Face Forensics++c23上的测试精度可达98.75%,这一结果说明提出的算法具有较强的分类能力。
基于注意力机制的多尺度点云分类方法研究
这是一篇关于注意力机制,Transformer,点云分类,深度神经网络,交叉注意力机制,局部特征,全局特征的论文, 主要内容为点云作为一种重要的几何数据形式,有效地提取其丰富的几何信息是各类点云数据处理问题的关键。点云几何信息包括点的空间位置关系、点特征通道之间的关系、点云局部几何结构关系。针对目前三维点云分类方法未能综合利用上述点云几何信息,提出了一种基于注意力机制的多尺度点云分类模型,以综合利用点空间位置关系、点特征通道之间的关系、点云局部几何结构之间的关系。首先,通过最远点采样和K最近邻算法获取多尺度点云块。其次,通过点注意力和通道注意力融合模块获取点云局部特征。然后,通过Transformer编码器进行每种尺度局部点云块之间的信息交互得到单一尺度点云块交互后的嵌入序列。最后,使用交叉注意力融合模块进行多尺度点云块特征融合。点注意力和通道注意力融合模块结合点空间和通道关系,有效提取点云局部几何信息;交叉注意力融合模块在一次时间复杂度下,能有效融合多尺度局部点云块特征以生成全局特征。在点云识别基准测试中,在Model Net40和Scan Object NN数据集中分别取得了93.9%和82.8%的准确率;在Shape Net Core v2数据集上进行预训练,然后在Model Net40和Scan Object NN数据集上微调,准确率分别达到94.3%和83.5%,相比之前方法取得了非常有竞争力的表现。因此,所提出的模型能有效捕捉点云不同几何结构的语义信息,使点云识别结果更加准确。该论文有图32幅,表12个,参考文献63篇。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码驿站 ,原文地址:https://bishedaima.com/lunwen/54327.html