基于YOLO的轻量化番茄实时检测算法及移动端部署
这是一篇关于YOLO,MobileNetV3,番茄检测,模型剪枝,模型量化的论文, 主要内容为近些年来,深度学习在图像识别、语音识别、自然语言处理等领域取得显著进展,但在移动设备上应用深度学习模型存在诸多问题,有限的内存及计算资源影响了其在移动端的实用型和实时性。深度学习模型在目标检测领域亦得到了广泛应用,但同样的,其在移动设备上的应用部署依然存在着难点和限制。为了解决这些问题,学者们提出了许多改进策略,如模型加速、压缩、算法优化和硬件加速等方案。针对目前基于深度学习的番茄目标检测算法参数量多、计算量大、耗时长,且依赖于GPU等高算力设备的问题,本研究提出一种基于轻量化改进的YOLOv5算法实现对番茄果实的实时定位和成熟度检测,具体研究内容如下:(1)基于网络轻量化设计及模型剪枝技术,对YOLOv5s进行轻量化改进,主要工作为以下四点:首先使用单层下采样层代替原始的Focus层,有效提升了检测速度;其次利用轻量化网络Mobile Net V3的bneck模块重构YOLOv5的主干网,对特征提取进行加速,与基准模型YOLOv5s相比,参数量和体积大幅缩减了49.71%和61.58%,运算量也随之降低了48.61%;接下来对于Neck层进行通道剪枝,在0.5的剪枝系数下,模型体积进一步缩减了56%;最后使用遗传算法进行超参数优化,提升检测精度。本研究在自制的包含1700张不同成熟度番茄数据集上评估了改进后的算法,实验结果表明,改进后的模型THYOLO的参数量(params)和运算量(FLOPs)相较于基准YOLOv5s压缩了78%和84.15%,m AP则达到了0.969,在CPU平台上的检测速度为42.5ms,大幅提升了64.88%。(2)为了获得低延迟、高吞吐量的部署推理,使其达到实时检测的目标,本研究进一步利用NCNN(Nihui Convolutional Neural Networks)框架对改进后模型进行量化操作,通过实验数据分析与可视化结果可以看出,量化后的算法有较好的检测效果,特别是16bit量化后的模型在算力较低的移动端达到了平均26.5FPS的检测帧数,较基准YOLOv5s提升了268%,这样的结果能满足大多数场景在移动端平台上的实时性要求,同时模型体积缩减51.1%,且达到了93%的相近于基准YOLOv5s的检测精度。(3)针对目前基于深度学习的目标检测算法依赖于服务器等高昂设备,且在农业生产环境下部署不便的问题,本研究开发了一款基于Android端的番茄实时检测APP,搭载了经过轻量化改进及量化后的THYOLO模型,该APP可通过对手机摄像头的调用,在本地端实现对番茄果实的定位及成熟度判断,并且达到了实时性要求(24帧以上)。该APP上手简单,且手机作为便携式设备具有体积小,价格低廉的优点,更加适用于实际的农业生产环境。
基于参数量化的联邦学习模型共享方案研究
这是一篇关于联邦学习,通信效率,模型量化的论文, 主要内容为联邦学习中模型的共享方案研究是隐私保护的机器学习领域的重点研究内容,近年来随着社会对数据安全的重视和对隐私的保护意识的不断加强,联邦学习中对模型训练结果的共享方案的设计层出不穷,并应用在移动应用的个性化推荐系统、金融理财业务评估系统、医药关键信息互通和电子医疗信息分析等多领域。与传统的在数据中心或服务器进行的深度学习不同,联邦学习场景下的深度学习网络的主要运算设备是较大规模和物理范围内的移动设备群。面对通信时延、网络波动以及算力不均等诸多难点,对提高模型共享、聚合所需要的传输效率的研究具有较为实际的应用价值。本文论述了联邦学习场景下的深度学习技术的研究背景与意义,对此类深度学习技术的研究现状进行了描述和分析,重点对联邦学习中中心节点与边缘计算节点之间的模型共享和聚合方案进行研究,分别设计了基于分组周期更新的模型共享方案和基于模型量化的高效模型共享方案,并设计了优化模型共享方案的联邦学习仿真实现,对两种提高模型共享和传输效率的方法进行验证。本文主要做了以下工作:1.本文从模型训练的整体网络架构的角度出发,研究了已有的基于周期更新的模型共享方案,并对这种周期更新方案现有问题进行分析,改进了基于周期的本地轮转的模型更新方案,提高了全局模型在组间的收敛速度,在规定本地训练5轮和小组聚合2次的情况中将模型共享部分所需的通信回合数降至原有的10%。2.本文还从传输模型更新的数据形式的角度出发,研究了已有的基于参数量化的高效模型共享方案的原理,结合了现有的基于压缩量化和阈值量化的方法,设计了基于权重的稀疏化量化的模型共享方案,并在联邦学习场景中验证,改进的模型共享方法在对模型更新数据处理后,可以将通信成本降至原有的12%,在较大规模的联邦学习场景中,减轻节点间的通信成本和负担。3.本文结合联邦学习场景下的深度学习研究,设计了基于Py Torch平台的联邦学习平台,该平台支持联邦学习实践中所需的卷积网络训练模块、数据模拟模块、可选择共享方案的模型共享模块和模型验证模块。通过以上模块实现并验证了本文提出的模型共享方案在更新模型数据阶段的可行性和效率。通过实验,证明本文提出的联邦学习场景下高效的模型共享方案在模型更新阶段有较好的通信效率提升,能够提高模型的收敛速度,防止模型因隐私保护的本地训练而产生的过拟合情况,并保证模型在验证阶段的精度损失。本文提出的方案对联邦学习未来的落地应用有较强的研究意义和应用价值。
基于参数量化的联邦学习模型共享方案研究
这是一篇关于联邦学习,通信效率,模型量化的论文, 主要内容为联邦学习中模型的共享方案研究是隐私保护的机器学习领域的重点研究内容,近年来随着社会对数据安全的重视和对隐私的保护意识的不断加强,联邦学习中对模型训练结果的共享方案的设计层出不穷,并应用在移动应用的个性化推荐系统、金融理财业务评估系统、医药关键信息互通和电子医疗信息分析等多领域。与传统的在数据中心或服务器进行的深度学习不同,联邦学习场景下的深度学习网络的主要运算设备是较大规模和物理范围内的移动设备群。面对通信时延、网络波动以及算力不均等诸多难点,对提高模型共享、聚合所需要的传输效率的研究具有较为实际的应用价值。本文论述了联邦学习场景下的深度学习技术的研究背景与意义,对此类深度学习技术的研究现状进行了描述和分析,重点对联邦学习中中心节点与边缘计算节点之间的模型共享和聚合方案进行研究,分别设计了基于分组周期更新的模型共享方案和基于模型量化的高效模型共享方案,并设计了优化模型共享方案的联邦学习仿真实现,对两种提高模型共享和传输效率的方法进行验证。本文主要做了以下工作:1.本文从模型训练的整体网络架构的角度出发,研究了已有的基于周期更新的模型共享方案,并对这种周期更新方案现有问题进行分析,改进了基于周期的本地轮转的模型更新方案,提高了全局模型在组间的收敛速度,在规定本地训练5轮和小组聚合2次的情况中将模型共享部分所需的通信回合数降至原有的10%。2.本文还从传输模型更新的数据形式的角度出发,研究了已有的基于参数量化的高效模型共享方案的原理,结合了现有的基于压缩量化和阈值量化的方法,设计了基于权重的稀疏化量化的模型共享方案,并在联邦学习场景中验证,改进的模型共享方法在对模型更新数据处理后,可以将通信成本降至原有的12%,在较大规模的联邦学习场景中,减轻节点间的通信成本和负担。3.本文结合联邦学习场景下的深度学习研究,设计了基于Py Torch平台的联邦学习平台,该平台支持联邦学习实践中所需的卷积网络训练模块、数据模拟模块、可选择共享方案的模型共享模块和模型验证模块。通过以上模块实现并验证了本文提出的模型共享方案在更新模型数据阶段的可行性和效率。通过实验,证明本文提出的联邦学习场景下高效的模型共享方案在模型更新阶段有较好的通信效率提升,能够提高模型的收敛速度,防止模型因隐私保护的本地训练而产生的过拟合情况,并保证模型在验证阶段的精度损失。本文提出的方案对联邦学习未来的落地应用有较强的研究意义和应用价值。
基于参数量化的联邦学习模型共享方案研究
这是一篇关于联邦学习,通信效率,模型量化的论文, 主要内容为联邦学习中模型的共享方案研究是隐私保护的机器学习领域的重点研究内容,近年来随着社会对数据安全的重视和对隐私的保护意识的不断加强,联邦学习中对模型训练结果的共享方案的设计层出不穷,并应用在移动应用的个性化推荐系统、金融理财业务评估系统、医药关键信息互通和电子医疗信息分析等多领域。与传统的在数据中心或服务器进行的深度学习不同,联邦学习场景下的深度学习网络的主要运算设备是较大规模和物理范围内的移动设备群。面对通信时延、网络波动以及算力不均等诸多难点,对提高模型共享、聚合所需要的传输效率的研究具有较为实际的应用价值。本文论述了联邦学习场景下的深度学习技术的研究背景与意义,对此类深度学习技术的研究现状进行了描述和分析,重点对联邦学习中中心节点与边缘计算节点之间的模型共享和聚合方案进行研究,分别设计了基于分组周期更新的模型共享方案和基于模型量化的高效模型共享方案,并设计了优化模型共享方案的联邦学习仿真实现,对两种提高模型共享和传输效率的方法进行验证。本文主要做了以下工作:1.本文从模型训练的整体网络架构的角度出发,研究了已有的基于周期更新的模型共享方案,并对这种周期更新方案现有问题进行分析,改进了基于周期的本地轮转的模型更新方案,提高了全局模型在组间的收敛速度,在规定本地训练5轮和小组聚合2次的情况中将模型共享部分所需的通信回合数降至原有的10%。2.本文还从传输模型更新的数据形式的角度出发,研究了已有的基于参数量化的高效模型共享方案的原理,结合了现有的基于压缩量化和阈值量化的方法,设计了基于权重的稀疏化量化的模型共享方案,并在联邦学习场景中验证,改进的模型共享方法在对模型更新数据处理后,可以将通信成本降至原有的12%,在较大规模的联邦学习场景中,减轻节点间的通信成本和负担。3.本文结合联邦学习场景下的深度学习研究,设计了基于Py Torch平台的联邦学习平台,该平台支持联邦学习实践中所需的卷积网络训练模块、数据模拟模块、可选择共享方案的模型共享模块和模型验证模块。通过以上模块实现并验证了本文提出的模型共享方案在更新模型数据阶段的可行性和效率。通过实验,证明本文提出的联邦学习场景下高效的模型共享方案在模型更新阶段有较好的通信效率提升,能够提高模型的收敛速度,防止模型因隐私保护的本地训练而产生的过拟合情况,并保证模型在验证阶段的精度损失。本文提出的方案对联邦学习未来的落地应用有较强的研究意义和应用价值。
基于深度神经网络的光学遥感图像飞机目标检测与细粒度识别
这是一篇关于光学遥感图像,飞机检测,细粒度识别,噪声标签,模型量化的论文, 主要内容为飞机目标检测是遥感图像解译的一个重要分支,飞机在交通运输领域以及军事作战领域都有重要的应用,对其准确的位置与不同型号实现快速、高效的检测与识别具有重要的意义。本文针对高分辨光学遥感图像飞机检测任务中的复杂场景以及细粒度识别中的长尾问题和噪声标签问题,以自然图像经典单阶段目标检测算法做为基础,出了基于深度神经网络的光学遥感图像飞机目标检测与细粒度识别方法;并结合遥感图像解译的应用场景,针对性地升遥感图像解译的速度并节省计算开支。主要研究内容如下所述:(1)出了一种对噪声数据鲁棒的单阶段细粒度光学遥感图像飞机检测器。针对单阶段目标检测模型在细粒度识别任务上表现不佳的问题,基于经典单阶段目标检测模型Retina Net,引入细粒度分类模块将目标的特征细化后再进行分类。为了应对人工标注数据集中存在的类别噪声,将原始分类子网络的作用由类别区分转化为前背景区分,避免了错误的类别标签对模型学习是否存在目标的负面影响。出了一种噪声鲁棒的标签分配策略,在更好的对含有噪声的标签进行分配的同时使前背景分类器能够感知样本的质量。最后采集了数据集并进行细粒度标注,通过实验证明该方法比较于Retina Net方法以及其他一系列方法具有更高的检测和细粒度识别的精度。(2)出了一种基于难样例聚焦与梯度停止的遥感图像飞机目标检测与识别方法。针对部分目标检测和识别困难的问题,受经典分类器SVM的启发,基于SVM的理论基础出了一种基于支持样本的难样例聚焦方法,以动态的寻找困难样本,同时出了一种损失函数对其进行额外的聚焦监督。此外,细粒度识别任务中常伴随着类别不平衡问题,针对长尾问题出了类别感知损失和对不同类别的梯度停止方法。有效的升了对困难样本的区分能力,并一定程度上缓解了长尾问题带来的负面影响。(3)出了一种基于动态随机的8bit整型量化训练方法。针对8bit整型训练后量化方法误差较大的缺点,采用量化训练方法对模型进行8bit整型量化;采用逐通道非对称量化方法降低量化映射过程中的缩放误差;通过动态可学习的映射关系选取更合理的参数数值范围以最大化量化后权重的表达能力,并基于直通估计改进了梯度计算方法从而实现对映射关系的反向传播;最后,采用量化随机失活方法在训练过程中随机的选取参数进行量化,从而进一步降低量化误差,有效的使量化后的8bit整型模型保留了与全精度模型相近的精度表现。
开放环境下模型轻量化服务平台的设计与实现
这是一篇关于模型组件化,模型编排,模型量化,分层优化的论文, 主要内容为近年来,以深度学习为核心的人工智能技术被广泛应用于工业智能制造、医疗影像分析、智能电网和智慧城市等领域,为传统行业带来深刻变革。但将深度学习技术应用至实际场景,尤其在场景多、任务难、跨场景适应能力要求高的复杂开放环境中,深度学习模型落地部署还存在诸多挑战:1.无法针对不同任务场景实现多种模型的灵活组合和复用,导致系统的可维护性和可扩展性差;2.目前大部分硬件平台只提供简单的低比特量化方法,优化空间有限,导致量化后模型精度损失严重,尚缺少高效、便捷的模型量化方案;3.现有人工智能服务平台主要针对神经网络模型的训练阶段提供支持,在模型轻量化和服务化部分支撑较弱。针对以上挑战,本文从应用场景入手,设计并构建了面向开放环境的模型轻量化服务平台,为深度学习技术落地应用的轻量化、服务化和平台化提供支持。主要研究内容如下:1.从模型服务部署入手,研究更高效的模型服务生成方法,提出并实现了一种基于有向无环图(Directed Acyclic Graph,DAG)结构的模型服务工作流编排及部署方法。将模型、预处理和后处理等模块组件化,通过串行或并行的方式组合为一个模型服务工作流,实现复杂任务场景下模型快速编排重组,提升了开放环境下多模型与多处理组件组合调用的可扩展性与可维护性。2.从量化关键节点和可优化空间入手,研究并实现了一种轻量化的端到端神经网络模型量化技术。在量化前利用反比因式分解跨层调整参数分布,使模型更适合量化;量化中对权重和量化参数进行逐层联合优化,提升模型量化后精度;量化后结合硬件平台的算子融合策略,提出基于逐层误差分析的算子调度算法,实现软硬件结合的量化加速。相较于原生IN8量化实现,本文所设计的量化算法能平均提升约2%的准确率,为算力受限的端侧平台提供高可用的模型量化服务。3.最后从模型平台化服务能力入手,设计并实现了面向开放环境的模型轻量化服务平台,基于以上两项研究内容,结合容器技术和微服务架构,构建了一个提供模型量化、模型服务工作流编排与模型部署等服务的端到端模型轻量化服务平台,为开放环境下多场景、多任务的深度学习模型快速落地应用提供技术支持。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码客栈 ,原文地址:https://bishedaima.com/lunwen/54584.html