基于改进ViT的杂草识别系统
这是一篇关于计算机视觉,Vision Transformer,图像分类,杂草识别系统的论文, 主要内容为作为农业生产活动中的重要一环,杂草防治工作一直都是相关领域科研工作者们的重点研究方向。传统的除草方式大多采用农药喷洒、物理铲除等方式,效率相对较低。随着信息技术的飞速发展,自动除草设备也将越来越多的适用于农业生产。真实的杂草场景具有复杂且相似的背景、高度相似的外形与颜色。此外,自然条件下的阳光、遮挡(泥土,雨雾,阴影)等也成为影响机器识别杂草的重要因素,因此如何有效识别杂草是自动除草设备进入实用化的关键。传统的基于手工提取特征的机器学习方法已经不适合如今越来越大规模的实际数据应用,而基于深度学习的识别方法如深度卷积神经网络可以自动的从原始输入图像中学习到具有判别性的特征,并应用于下游分类器,相对于传统方法优势明显。但是深度卷积神经网络也有其局限性,其基于卷积神经算子计算的平移不变性使得深度卷积网络更擅长获取局部信息而忽略了全局信息,此外,卷积神经网络的归纳偏差特性也不适合解决当前具有高细粒度特性的农田杂草识别任务。基于此,本文提出了一种基于目标box区域引导的注意力计算方式,同时捕获图像的全局信息和局部信息。首先检测出图像中的对象标记框(bounding box),然后将这些对象框作为查询Q与原始输入图像中划分的不同patch做自注意力计算,可以尽可能的避免相似背景带来的负面影响,并且同一个对象的不同子区域的box可以在模型的学习过程中增强外形和颜色特征的表达。进一步地,本文提出了一个基于区域引导注意力的杂草识别模型,在公共数据集DeepWeeds上,与当前流行的深度卷积神经网络以及ViT等方法进行了实验对比分析,本文方法在所有的10个方法中表现最好,实验结果证明了本文所提模型的有效性。为了直观地展示杂草识别的效果,本文设计开发了一个简单的杂草识别系统,基于灵活轻便的Flask框架实现系统后端,基于vue.js实现系统前端页面,并采用Element UI作为前端样式库,系统整体风格简洁美观,用户操作方便,可以实时上传并识别杂草类别。
复杂场景下的牛只身份识别
这是一篇关于牛身识别,Vision Transformer,空间聚合,数据不平衡,双边网络,混合图像增强的论文, 主要内容为随着我国推进现代化畜牧业,通过互联网、大数据、5G通信等技术建立智慧牧场实现精细化管理尤为重要,通过牛只身份识别实现智慧牧场成为关键一步。基于深度学习的生物识别技术的广泛应用,使结合深度学习的智慧牧场方式得到迅速发展。但在实际智慧牧场的应用中,由于牧场环境的多样性,采集到的牛身图像姿态差异性比较大,出现多姿态识别困难问题以及数据集不平衡问题。本文主要通过牛舍和挤奶通道采集牛身图像,在牛舍中牛只活动范围较广,采集到的每头牛图像姿态呈多样性,不同姿态下牛只识别比较困难;而在挤奶通道中,牛只被限制在狭窄的通道中,且牛只快速通过,采集的每头牛图像姿态较为单一,采集有效样本较少,当牛舍和挤奶通道中牛身图像混合训练时,导致出现样本不平衡现象。本文基于牛只背部的身体图案进行牛只识别,即牛身识别,主要研究内容如下:1.因为没有公开的牛身图像数据集,实验数据均为实验室自制数据。本文在2个牛场中采集到共389头牛组成的牛身图像数据集,主要通过牛舍和挤奶通道采集的数据。在牛舍中,通过部署在牛舍上方的摄像头采集数据,采集到共309头牛身图像数据,牛舍中的牛只有两种情况,一种是可以自由活动,另一种用绳子栓在牛舍中,牛舍中的牛身图像姿态差异较大。在挤奶通道中,同样通过部署在挤奶通道上方的摄像头采集数据,采集到共80头牛身图像数据,挤奶通道中牛只的活动范围较小,因此牛身图像姿态变化差异较小。2.针对牛身多姿态图像识别困难问题,提出基于局部特征聚合Transformer的牛身识别算法。首先,充分考虑到不同姿态下牛身图像的整体差异性较大而牛身的局部特征信息存在关联性,因此,利用Transformer的多头自注意力机制建立牛身不同部位的关联性。其次,通过卷积空间聚合模块增加Transformer中所没有的局部特征信息,来提高特征信息的表征能力。最后,采用三元组损失以扩大相似度较高的牛身之间的特征距离,同时利用标签平滑交叉熵损失减少过拟合以及建立牛身之间的一定的关联性。实验结果显示,该算法有效提高了多姿态牛身图像的识别性能。3.针对牛身数据集不平衡问题,提出基于MBN-Transformer的不平衡牛身数据的双边识别算法。首先,通过图像混合增强模块将平衡采样器和随机采样器的图像进行混合增强,并通过动态融合混合参数来调整图像混合程度,降低挤奶通道中牛身的过拟合现象。其次,利用Transformer编码器设计常规分支和平衡分支,分别处理牛舍随机采样器的图像混合增强数据和挤奶通道平衡采样器的图像混合增强数据,并将两个分支的输出特征通过动态平衡因子融合,使最终融合后的输出特征随着训练次数的变化来解决挤奶通道中姿态单一的牛身图像数据识别性能较差问题。实验结果表明,该算法对于不平衡牛身数据显著提高了其提高识别性能。4.针对牛身识别算法实际场景部署问题,提出基于AI盒子的牛身识别算法平台的研究。根据实际牧场环境,设计整个算法平台整体架构,包括摄像头部署、算法模型移值、特征比对和模板更新。
基于深度学习的心血管疾病检测方法研究
这是一篇关于心电图,卷积神经网络,Vision Transformer,隐匿性房室旁路,心动过速的论文, 主要内容为随着社会发展,生活节奏加快,工作压力慢慢变大,因心脏疾病死亡的人数也逐年增加。心电图能直接反映出心脏的活动状态,是诊断各类心脏疾病的重要工具。但心电图所含的信息错综复杂,在处理大量心电数据时,即使经验丰富的医生也难免出现误诊。同时,人工处理心电图效率较低,可能会贻误治疗时机。在此背景下,研究心电图自动分类算法有着重要意义。本课题主要致力于建立快速、准确的心血管疾病检测模型。主要研究内容如下:由于心电图数据涉及个人隐私,现有的公开数据集中患者数量较少,且多为单导联心电图。为了提升模型泛化性能,同时使研究内容能够应用于实际场景,本文建立了JNUECG数据库。JNUECG数据库所用数据为无锡市某医院心电科中1367名患者的8000多张心电图,按不同病症、不同个体将所有数据划分为6个不同的数据集,数据均经过脱敏处理,只保留了心电图的波形信息。针对数据集中心电图体积较大、样本分布不均匀等问题,采用了双线性插值法、数据增强等方式进行了初步预处理。相比于公开数据集,JNUECG数据库中含有更多的患者,模型能学习到不同患者的特征,具有更好的泛化能力。针对隐匿性心血管疾病患者心电图波形变化不明显、特征难以提取的问题,建立基于多导联二维Res Net的隐匿性房室旁路(Concealed accessory pathway,CAP)预测模型。通过通道注意力机制和残差模块来改进心电图分类模型。残差模块使模型的深度与参数量增加时模型不会出现过拟合与性能下滑,参数量更大的模型能够提取更深层次的特征。通道注意力机制自适应地对网络中的每个特征通道进行加权,引导网络更好地关注有助于识别阳性病例的特征信息。此外,对Res Net结构进行了改进,用设计的4个V-Ne Xt模块代替了Res Net中的4个stage,并通过对比实验选择了最优的损失函数。最终多导联二维Res Net模型在JNUECG数据集上的准确率为92.3%,在公开数据集CSE上的准确率为99.5%。实验结果表明,该模型能够实现对CAP病症的准确预测,并且具有较强的泛化能力。针对卷积神经网络对全局特征提取能力较弱的问题,建立一种基于卷积神经网络(Convolutional Neural Network,CNN)与Vision Transformer(VIT)融合的模型,对房室结折返性心动过速(Atrioventricular nodal reentry tachycardia,AVNRT)进行检测。心电图是有序的时序信号,空间维度上有着一定距离的信号也存在着一定的关联,而VIT相比于CNN,全局关联特征的挖掘能力更加出色,能处理更为复杂的心电图。该模型先使用一维CNN初步学习原始心电图,去除一部分冗余特征后将特征传入VIT中,VIT中的多头注意力机制捕获心电图各时段直接的依赖关系,提取到更全面的特征细节。CNN与VIT融合模型在JNUECG数据集上的准确率为95.4%,信噪比为12d B的实验环境下,模型的准确率为89.1%。实验结果表明,该模型能够准确检测AVNRT病症,并且能在具有噪声的环境下,保持较高的检测准确率。
基于深度学习的心血管疾病检测方法研究
这是一篇关于心电图,卷积神经网络,Vision Transformer,隐匿性房室旁路,心动过速的论文, 主要内容为随着社会发展,生活节奏加快,工作压力慢慢变大,因心脏疾病死亡的人数也逐年增加。心电图能直接反映出心脏的活动状态,是诊断各类心脏疾病的重要工具。但心电图所含的信息错综复杂,在处理大量心电数据时,即使经验丰富的医生也难免出现误诊。同时,人工处理心电图效率较低,可能会贻误治疗时机。在此背景下,研究心电图自动分类算法有着重要意义。本课题主要致力于建立快速、准确的心血管疾病检测模型。主要研究内容如下:由于心电图数据涉及个人隐私,现有的公开数据集中患者数量较少,且多为单导联心电图。为了提升模型泛化性能,同时使研究内容能够应用于实际场景,本文建立了JNUECG数据库。JNUECG数据库所用数据为无锡市某医院心电科中1367名患者的8000多张心电图,按不同病症、不同个体将所有数据划分为6个不同的数据集,数据均经过脱敏处理,只保留了心电图的波形信息。针对数据集中心电图体积较大、样本分布不均匀等问题,采用了双线性插值法、数据增强等方式进行了初步预处理。相比于公开数据集,JNUECG数据库中含有更多的患者,模型能学习到不同患者的特征,具有更好的泛化能力。针对隐匿性心血管疾病患者心电图波形变化不明显、特征难以提取的问题,建立基于多导联二维Res Net的隐匿性房室旁路(Concealed accessory pathway,CAP)预测模型。通过通道注意力机制和残差模块来改进心电图分类模型。残差模块使模型的深度与参数量增加时模型不会出现过拟合与性能下滑,参数量更大的模型能够提取更深层次的特征。通道注意力机制自适应地对网络中的每个特征通道进行加权,引导网络更好地关注有助于识别阳性病例的特征信息。此外,对Res Net结构进行了改进,用设计的4个V-Ne Xt模块代替了Res Net中的4个stage,并通过对比实验选择了最优的损失函数。最终多导联二维Res Net模型在JNUECG数据集上的准确率为92.3%,在公开数据集CSE上的准确率为99.5%。实验结果表明,该模型能够实现对CAP病症的准确预测,并且具有较强的泛化能力。针对卷积神经网络对全局特征提取能力较弱的问题,建立一种基于卷积神经网络(Convolutional Neural Network,CNN)与Vision Transformer(VIT)融合的模型,对房室结折返性心动过速(Atrioventricular nodal reentry tachycardia,AVNRT)进行检测。心电图是有序的时序信号,空间维度上有着一定距离的信号也存在着一定的关联,而VIT相比于CNN,全局关联特征的挖掘能力更加出色,能处理更为复杂的心电图。该模型先使用一维CNN初步学习原始心电图,去除一部分冗余特征后将特征传入VIT中,VIT中的多头注意力机制捕获心电图各时段直接的依赖关系,提取到更全面的特征细节。CNN与VIT融合模型在JNUECG数据集上的准确率为95.4%,信噪比为12d B的实验环境下,模型的准确率为89.1%。实验结果表明,该模型能够准确检测AVNRT病症,并且能在具有噪声的环境下,保持较高的检测准确率。
面向边缘端的电子元器件表面缺陷检测算法研究
这是一篇关于边缘智能,图像处理,迁移学习,ResNet,Vision Transformer,OpenCV的论文, 主要内容为随着智能制造技术的发展,越来越多的工厂开始进行数字化智能化转型,各种AI应用也开始出现在工厂车间。但受限于工业生产环境的复杂,边缘智能相关技术在智能制造领域的应用并未大规模展开。本文针对压敏电阻表面缺陷检测过程中实现自动化、快速化、智能化的实际需求,基于深度学习和图像处理技术,训练了检测压敏电阻表面是否有缺陷的深度神经网络模型,设计了面向边缘端设备的图像处理算法,并搭建了面向边缘端的压敏电阻检测筛选实验系统。具体的实现内容如下:在压敏电阻数据预处理方面,首先对压敏电阻图像进行数据采集,其次针对采集数据中存在的图像背景有杂质、图像有噪点、图像中无用信息比例过大、图像中压敏电阻摆放角度不统一的问题设计并实现了基于Open CV的压敏电阻图像预处理算法,通过预处理算法解决了采集图像中存在的问题。此外针对性的进行了数据增强来解决数据集较少的问题。在压敏电阻检测算法方面,引入Res Net模型与Vision Transformer模型进行对比测试。采用自行训练与迁移学习两种不同的策略在云服务器中进行训练,完成训练后通过对比Loss、ACC随Epoch变化的曲线图、混淆矩阵示意图、ROC与对应AUC图,最终选择效果最好的Res Net50_trans作为压敏电阻检测模型,其ACC达到了0.984,AUC为0.99。在面向边缘端的压敏电阻表面缺陷检测模型优化部署方面,针对边缘端设备基于Open VINO进行了模型量化与部署测试,对比了不同推理框架的推理速度与准确度。针对压敏电阻检测模型只能进行固定大小的单张图像检测且实际工厂检测环境中要求一帧图片可以进行多个压敏电阻检测的实际需求,设计并实现了基于Open CV的压敏电阻多目标提取算法。在面向边缘端的压敏电阻检测筛选实验系统设计实现方面,首先完成了相机控制系统和执行机构控制程序的开发;其次针对相机畸变问题与执行机构抓取时需要将图像像素坐标转变为执行机构世界坐标的要求,设计实现了相机标定算法与坐标转换算法;最后整合所有算法与程序,开发了压敏电阻检测筛选系统并进行验证测试,实现了对压敏电阻的自动检测筛选。
复杂场景下的牛只身份识别
这是一篇关于牛身识别,Vision Transformer,空间聚合,数据不平衡,双边网络,混合图像增强的论文, 主要内容为随着我国推进现代化畜牧业,通过互联网、大数据、5G通信等技术建立智慧牧场实现精细化管理尤为重要,通过牛只身份识别实现智慧牧场成为关键一步。基于深度学习的生物识别技术的广泛应用,使结合深度学习的智慧牧场方式得到迅速发展。但在实际智慧牧场的应用中,由于牧场环境的多样性,采集到的牛身图像姿态差异性比较大,出现多姿态识别困难问题以及数据集不平衡问题。本文主要通过牛舍和挤奶通道采集牛身图像,在牛舍中牛只活动范围较广,采集到的每头牛图像姿态呈多样性,不同姿态下牛只识别比较困难;而在挤奶通道中,牛只被限制在狭窄的通道中,且牛只快速通过,采集的每头牛图像姿态较为单一,采集有效样本较少,当牛舍和挤奶通道中牛身图像混合训练时,导致出现样本不平衡现象。本文基于牛只背部的身体图案进行牛只识别,即牛身识别,主要研究内容如下:1.因为没有公开的牛身图像数据集,实验数据均为实验室自制数据。本文在2个牛场中采集到共389头牛组成的牛身图像数据集,主要通过牛舍和挤奶通道采集的数据。在牛舍中,通过部署在牛舍上方的摄像头采集数据,采集到共309头牛身图像数据,牛舍中的牛只有两种情况,一种是可以自由活动,另一种用绳子栓在牛舍中,牛舍中的牛身图像姿态差异较大。在挤奶通道中,同样通过部署在挤奶通道上方的摄像头采集数据,采集到共80头牛身图像数据,挤奶通道中牛只的活动范围较小,因此牛身图像姿态变化差异较小。2.针对牛身多姿态图像识别困难问题,提出基于局部特征聚合Transformer的牛身识别算法。首先,充分考虑到不同姿态下牛身图像的整体差异性较大而牛身的局部特征信息存在关联性,因此,利用Transformer的多头自注意力机制建立牛身不同部位的关联性。其次,通过卷积空间聚合模块增加Transformer中所没有的局部特征信息,来提高特征信息的表征能力。最后,采用三元组损失以扩大相似度较高的牛身之间的特征距离,同时利用标签平滑交叉熵损失减少过拟合以及建立牛身之间的一定的关联性。实验结果显示,该算法有效提高了多姿态牛身图像的识别性能。3.针对牛身数据集不平衡问题,提出基于MBN-Transformer的不平衡牛身数据的双边识别算法。首先,通过图像混合增强模块将平衡采样器和随机采样器的图像进行混合增强,并通过动态融合混合参数来调整图像混合程度,降低挤奶通道中牛身的过拟合现象。其次,利用Transformer编码器设计常规分支和平衡分支,分别处理牛舍随机采样器的图像混合增强数据和挤奶通道平衡采样器的图像混合增强数据,并将两个分支的输出特征通过动态平衡因子融合,使最终融合后的输出特征随着训练次数的变化来解决挤奶通道中姿态单一的牛身图像数据识别性能较差问题。实验结果表明,该算法对于不平衡牛身数据显著提高了其提高识别性能。4.针对牛身识别算法实际场景部署问题,提出基于AI盒子的牛身识别算法平台的研究。根据实际牧场环境,设计整个算法平台整体架构,包括摄像头部署、算法模型移值、特征比对和模板更新。
基于残差网络和注意力机制的医学图像分割算法研究
这是一篇关于深度学习,残差网络,Vision Transformer,注意力机制的论文, 主要内容为近年来,医学图像分割技术在当前医学研究领域的地位越来越高,通过医学图像分割技术的辅助,各类医学图像,如组织细胞图像、器官CT图像中的异常部位便能被精确识别并分割,有效帮助医生或医学研究人员对患者的病变部位进行分析,制定最佳的治疗方案。在过去几年,基于深度学习的语义分割算法在医学图像处理领域取得了巨大进展,这其中以Unet最具代表性,其U形拓扑结构很好地解决了一系列医学图像分割任务。然而,由于传统卷积运算的限制,过往的深度学习算法无法实现全局语义信息交互,难以匹配当下医学任务的高精度需求,为了解决这个问题,本文在过往基于深度学习的医学图像分割算法上,结合残差网络与自注意力机制的优势,提出了两种改进的医学图像分割网络模型,用于满足精确度要求更高的医学图像分割任务。本文的主要方法和创新如下:提出了一种基于残差网络和通道注意力的细胞图像分割网络(RS-Unet),在编码层采用改进的残差网络用于特征提取,相较于Unet的普通卷积网络特征提取层,有效缓解了训练过程中的梯度问题,获得了更多高精度语义特征,同时,在解码器中引入注意模块以减少语义差异。通过在两种医学细胞数据集上的对比实验结果表明,RS-Unet比其他基于深度学习的算法在Dice、Io U以及HD三项评价指标上都得到了更好的表现。其次,本章提出了一种基于自注意力机制的用于视网膜图像分割的神经网络(ST-net),采用反卷积模块作为网络的上采样层以及下采样层,减轻了网络在训练过程中的计算负担。同时,采用Vision Transformer作为整体网络的多尺度跳跃连接层,减小了训练阶段的语义间隔,获取了不同尺度的特征图之间的远程依赖关系。通过在DRIVE数据集上的对比实验,证明了ST-net在处理视网膜医学图像方面能获取更多的低尺度、复杂的图像特征,且Dice、Io U、HD指标上都得到了更好的表现。最后,本文针对RS-Unet做了模块消融实验,针对ST-net做了模块消融实验以及通道数消融实验,实验结果进一步验证了RS-Unet以及ST-net在各类医学图像分割任务中的可行性与高效性。
联合Vision Transformer和卷积神经网络的高分辨率遥感场景分类研究
这是一篇关于高分辨率影像,遥感场景分类,Vision Transformer,卷积神经网络,知识蒸馏的论文, 主要内容为得益于对地观测技术的不断发展,遥感数据呈现出海量化和多元化的趋势,且影像分辨率也不断提高。其中,高分辨率遥感影像表现出高度细节化的空间结构,能够充分表达地物和场景的关联,极大地推动场景级地物解译的发展。然而,如何建立地物底层表达和高层场景语义之间的映射关系是高分辨率遥感影像场景分类的关键问题。传统方法严重依赖手工特征的构造,且对于复杂场景的描述能力不够,进而限制分类精度的提升。作为深度学习的重要组成部分,卷积神经网络(Convolutional Neural Network,CNN)能够通过层级结构逐步提取复杂场景影像中的抽象语义信息,形成具有判别力的特征表达。但是,场景中地物目标的空间布局对于高层语义理解至关重要,基于CNN的方法难以有效捕捉上下文关系,导致判别能力存在瓶颈。因此,为有效获取判别性强的深度语义表达,论文开展联合Vision Transformer和卷积神经网络的高分辨率遥感场景分类研究,主要内容和创新点如下:(1)针对CNN模型所提特征鉴别力有限的问题,论文设计了一种基于Vision Transformer和CNN联合网络的场景分类方法。该算法包含Vi T流和CNN流:Vi T流中利用Vision Transformer揭示高分影像的长距离依赖关系,得到全局语义特征;而CNN流主要基于CNN模型挖掘场景图像的局部结构信息。并且,两个模块所提特征相互补充,能够有效提高特征的表达能力。此外,算法中设计了联合损失函数优化整个网络,可以有效增加类内聚集性,提高场景级特征的可分性。(2)为有效结合场景图像的局部结构特征和长距离依赖信息,尽可能地减少额外的计算复杂度,论文设计了一种基于Vision Transformer和知识蒸馏的场景分类方法。该算法将Vision Transformer作为教师模型,指导小规模学生网络Res Net18进行场景分类。借助于知识蒸馏的策略,Res Net18能够充分汲取两个模型的优势,进而同时探索高分场景的上下文依赖特征和局部细节特征,且计算复杂度较低。为使模型间的信息传递更加流畅,同时优化Vision Transformer和Res Net18,且教师模型的学习率逐步降低到零,蒸馏损失系数提高一倍。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设驿站 ,原文地址:https://bishedaima.com/lunwen/47914.html