基于Web的轻量化AR追踪算法研究与系统实现
这是一篇关于Web,AR,追踪,姿态估计,抖动优化的论文, 主要内容为增强现实(Augmented Reality,简称AR)是一种将虚拟内容加入到真实世界的技术。通过对真实世界的识别,将虚拟信息叠加到用户所处的真实场景中,使用户获得超越现实的感官体验。现阶段的AR应用主要依托于手机应用以及专用头戴设备,但是从宣传以及传播的角度来看,这两者的使用门槛都相对较高,不利于大规模传播。在这一情况下,Web AR作为一种轻量级、跨平台的解决方案,为AR普适化这一难题提供了新的研究方向和技术可能。但是,由于浏览器平台的运算资源有限,已有的AR方案无法完整地迁移到Web平台,而现有的新方案又并不成熟,还存在兼容性差、帧率低、加载时间长、开发成本高等问题。针对这一现状,本文设计了一套轻量化的AR追踪系统,在满足功能和性能要求的同时,还降低了使用门槛与开发成本。本论文的研究工作主要分为两个方面。一方面,为了提升Web AR应用的兼容性与加载速度,基于纯原生的JavaScript重新编写了一套轻量化且纯前端运行的Web AR计算库,并在此计算库的基础上以较小的代码体积分别实现了对二维图片与三维点云的识别与追踪。另一方面,针对目前Web AR应用帧率低且稳定性不足的问题,设计了一套新的特征点识别与追踪系统,通过合理设计特征点的追踪流程、及时剔除误匹配特征点、设置滤波系统等方式来提高系统的稳定性与实时性。并针对已有的追踪系统,提出了一套更适合于追踪场景的重投影姿态估计算法,基于前帧位姿计算结果,以迭代的形式快速收敛到最优解,从而提高整体运算效率。基于以上内容,本文设计并实现了基于Web的轻量化追踪系统,并为了验证这一系统的有效性,设计了多个对比测试,分析本文系统在计算效率与实际运行效果的提升。结果表明,本方案不仅成功在浏览器上实现了物体追踪与姿态估计等功能,在性能方面也同样达到了加载快、帧率高、稳定性强等要求。
基于卷积神经网络的红外视觉人体行为识别研究
这是一篇关于红外热成像,卷积神经网络,目标检测,姿态估计,行为识别的论文, 主要内容为人体行为识别技术(Human Action Recognition,HAR)是计算机视觉领域的新兴研究方向之一,其在智能安防、机器人技术、运动员辅助训练等领域具有十分广阔的应用前景。目前,基于可见光视觉信息的行为识别技术不断发展,但其极易受到特殊外场环境(如夜间、大雾、沙尘等)的影响,而红外热成像技术具有不受光照影响、抗干扰能力强、全天候监测等技术优势。但红外图像存在目标空域表征信息匮乏、对比度低等缺点,采用基于可见光视觉信息的识别技术无法取得较好的检测效果。本文以红外视觉智能行为识别为研究背景,以全辐射热像视频为研究对象,以卷积神经网络为核心特征提取工具,提出一种融合目标检测、姿态估计、时序行为分类的多阶段红外人体行为识别框架。本文的主要研究内容如下:(1)针对红外行为识别技术特殊的数据集要求,采用Vario CAM(?)HD980红外热像仪获取全辐射热像视频,并建立红外人体目标检测数据集IR-HD、红外人体姿态估计数据集IR-HPE、红外人体行为视频数据集IR-HAR。(2)针对SSD目标检测模型计算复杂度较高,对小目标、遮挡等情况鲁棒性差的问题,提出一种改进的SSD红外人体目标检测算法。采用Mobile Net V2作为基础特征提取网络,实现模型的轻量化。引入FPN特征金字塔结构实现多尺度特征图融合,提高模型浅层特征图的表征能力。同时,融入SE通道注意力机制提高模型对关键通道信息的关注度。研究结果表明,改进后SSD模型检测精度提升了1.5%,模型推理速度提高了21.61帧/秒。(3)针对红外人体关键点检测精度低的问题,提出一种基于深度残差网络的改进CPMs姿态估计模型。基于Res Net-18网络提取初始特征,并采用跨阶段置信图融合策略增强阶段性输入特征图的空间特征信息,以缓解模型梯度消失的问题,提高骨骼点检测精度。最后,级联目标检测模型实现自顶向下的红外人体多目标姿态估计。研究结果表明,基于深度残差网络的姿态估计模型检测精度达到了87.3%,相较于CPMs提高了2.7%。(4)针对基于单帧红外图像进行行为识别,而忽略帧间时域信息的问题,提出一种基于人体关键点的时空混合模型。以人体骨骼关键点的笛卡尔坐标作为行为的空域表征信息,并构建多层长短时记忆神经网络实现红外视觉下人体连续性动作的高效识别。研究结果表明,基于姿态估计的时空混合模型对红外视觉下人体行为的识别精度达到了90.2%。
基于深度学习的室内人体跌倒检测研究与实现
这是一篇关于深度学习,跌倒检测,YOLOv5,姿态估计的论文, 主要内容为老年人跌倒事件是老龄化社会面临的一个严重问题,它不仅会影响老年人的健康和生活质量,也给家庭和社会带来沉重负担。深度学习技术能够通过对人体行为数据进行学习和训练,从而获得人体特征信息。论文工作来源于广东某实习基地项目,通过运用深度学习技术提取包括姿态、位置等关键信息,以能及时、准确地检测老年人的跌倒,并立即预警。因此论文工作具有理论和实践应用价值,以及显著的社会效益。深度学习技术应用到跌倒检测领域已成为当前理论研究和应用实践热点,近年来取得一定的成果。但经深入调研和分析发现,现有算法存在有效特征选取不足、目标检测位置不准确或姿态估计检测到无人区域的问题,以及算法计算量大等局限性。论文解决了上述三个问题,着重于解决前两个问题。论文工作旨在针对老年人室内环境下的跌倒检测,基于改进的目标检测与姿态估计相结合的算法进行人体跌倒检测,设计并实现了一个室内人体跌倒检测原型系统。论文主要开展了以下工作:第一,提出了一种新的结合改进YOLOv5和OpenPose的室内跌倒检测算法。首先,对YOLOv5进行了改进,添加了坐标注意力机制以适应室内人体目标、引入GSConv轻量级卷积模块和简化损失函数以减少参数量和计算量。其次,针对Open Pose的计算量和功耗问题,使用了深度可分离卷积替代传统卷积。然后,将改进后的YOLOv5用于检测人体目标,并将人体位置信息输入到Open Pose中进行关键点检测和姿态提取,进而判断是否发生跌倒。实验结果表明,论文算法在保持原有精度的同时提高了检测速度。第二,设计并实现了基于PyQt5的室内人体跌倒检测原型系统。采用面向对象系统设计理论和方法完成了需求分析、系统设计、数据库设计、系统实现和测试。通过需求分析,明确了系统的功能性和非功能性需求。在确定系统设计准则后进行了系统架构设计,由输入源选择、跌倒检测和输出检测记录三个功能模块组成。采用时序图、类图和流程图完成了各功能模块的结构设计,并使用My SQL数据库进行了数据库设计。系统实现采用C/S结构,使用Python和Py Qt5进行开发。在遵循GB/T25000.51-2016的测试规范基础上,进行了系统的功能性、安全性、易用性、实时性等指标测试,测试结果满足系统设计要求。第三,丰富跌倒数据集。鉴于目前可用于跌倒检测的数据集较少且类型单一,在公开数据集基础上自建了一批室内人体跌倒检测数据集,包含约9000张图片的数据集,为后续研究奠定基础。在实际生活中,跌倒是在复杂环境中产生的,因此使用三维数据进行姿态估计会更全面。项目工作仅使用了二维姿态估计进行跌倒检测,未来将引入三位三维姿态估计到跌倒检测中。
儿童注意力的人工智能评估方法研究
这是一篇关于深度学习,表情识别,姿态估计,注意力,网络教学的论文, 主要内容为随着“互联网+”教育发展,网络课堂突破时空局限,同时也存在不足,例如老师不能面对面及时了解学生的课堂认知状态。因此,知晓网络课堂中学生注意力水平是重点问题。本文研究目的是利用深度学习来评估学生在网络课堂上的注意力水平,包括人面检测、表情识别、姿态估计,并且基于这些模型进行注意力状态判定实验的验证与分析。本文内容主要包括如下三个工作:首先,研究了基于表情识别的注意力状态检测模型。本文对人脸检测和表情识别相关理论进行了深入研究,利用MTCNN网络(Multi-task Cascaded Convolutional Networks)进行人脸检测,在人脸数据集WIDER FACE和Celeb A(Celeb Faces Attribute)验证集上,Io U(Intersection over Union)为0.6时准确率达91.8%,召回率80.8%。然后实现了四种视频分类算法和一种本文提出的模型,经过分析比较,选择采用本文提出的基于Transformer的视频分类网络作为注意力状态分类框架,在疲劳驾驶数据集Yaw DD(Yawning Detection Dataset)验证集上对视频分类准确率达到87.93%,召回率为84.26%,相比于次优的基于LSTM(Long Short Term Memory)框架提升4个百分点和3个百分点。然后,研究了基于姿态估计的注意力状态检测模型。本文对姿态估计和注意力机制的相关理论进行了深入的研究,将空间注意力机制和通道注意力机制引入高分辨率多尺度并行网络,提高HRNet(High Resolution Net)网络的精度,在MS COCO(Common Objects in Context)数据集上模型准确率达到了74.9%,比次优的基线模型提升了1.5个百分点;然后基于提取的学生上肢和头部的关键点信息,分析对比五类视频分类框架的表现,选择本文提出的基于Transformer的框架,在自行采集的学生网络课堂数据集验证集上的准确率为85.14%和召回率为83.98%,比次优基于LSTM模型分别高出4个百分点和3个百分点。最后,设计了一个基于表情和姿态多维度特征的模型效果验证实验。将学生在网络课堂上的注意力状态划分为离开状态、注意力分散状态和正常状态,结合表情识别和姿态估计,对学生的课堂注意力状态进行判定,并通过对图像获取速度进行调节以改善模型的实时性。自行录制学生网络课堂数据集进行模型的小规模验证。测试实验结果显示,模型能够准确分类学生在网络课堂上的注意力状态,准确率83.6%,召回率81.7%,能较好满足网络教学的要求。
基于多视角的排球训练分析系统的设计与实现
这是一篇关于排球,多视角重构,目标检测,目标追踪,姿态估计的论文, 主要内容为随着科学技术的不断进步以及对竞技体育越来越高的目标追求,将信息化辅助工具应用在体育比赛与训练当中已经成为一种趋势。排球项目是国家重要的体育项目之一,教练及运动员一直在寻找排球训练环节中的突破点,希望通过制定更加有效的针对性训练方案,实现运动员各项运动水平的不断提高。对于训练中产生的大量训练内容,其分析与统计工作目前仍停留在经验判断以及人工统计层面,教练员主要通过现场指导以及观看训练视频回放的形式对运动员训练状态形成大致评判,而缺少对运动员训练数据进行自动化分析与统计的工具和方法。针对当前改进排球训练统计与分析流程的迫切需求,本文设计并实现了基于多视角的排球训练分析系统,系统的主要目标是将各项人工智能技术应用于训练数据的提取过程中,实现训练中统计分析流程的自动化,改善流程效率,提高统计精度,从而减少教练员的重复性统计工作,保证教练员能够将更多的精力投入到训练计划的研究与制定当中。结合对排球训练视频分析系统的需求调研,本文系统基于Web相关技术实现了应用主体的开发,后端基于SSM框架实现,前端采用了Vue.js、Bootstrap等技术。在系统的模块划分上,主要包括后台数据管理、数据检索、视频分析以及可视化展示四个模块。后台数据管理模块主要完成用户权限的分配并实现视频的统一管理。视频检索模块主要实现对训练内容的快速检索。视频自动分析模块为系统设计了一种自动化分析流程,能够从多角度视频中提取出真实空间中的球轨迹及人体骨架;可视化展示模块主要以3D动画以及可视化图表等形式,将分析数据呈现给用户,为教练员以及运动员提供直观的训练参考数据。本文在球轨迹提取以及人体骨架提取算法的基础上,实现了针对排球训练视频的自动分析系统,并最终通过了系统各项测试,保证了系统的良好性能以及运行的稳定性,在一定程度上满足了教练对排球训练进行自动化分析以及统计的需求。
基于机器视觉的电动扶梯乘客异常行为检测方法研究
这是一篇关于电动扶梯,机器视觉,异常行为,目标检测,姿态估计,模型压缩的论文, 主要内容为随着中国经济的迅猛发展,城镇化速度加快,越来越多的电动扶梯被广泛用于各种公共场所。电动扶梯作为一种公共运输工具,在为人们带来便利的同时,也带来了不可忽视的安全隐患,诸如电动扶梯在正常运行过程中出现的乘客异常行为而引发的人身安全事故。为了避免上述安全事故的发生,需要实时监控扶梯区域,传统的人工视频监控方法存在监控人员容易视觉疲劳,突发情况处理不及时的问题。为了解决以上问题,通过对扶梯乘客异常行为检测现有研究现状的调研,本文提出了一种基于机器视觉的电动扶梯乘客异常行为检测框架,并提出了一种自适应剪枝算法对该检测算法的分类网络模型部分进行高效率和低损失压缩。可以实现扶梯乘客异常行为的高效检测和识别,具有实际的工程价值和重要的社会意义。主要的工作内容如下:(1)建立了扶梯乘客异常行为数据集EAB。本文将扶梯场景下对乘客危害程度较大的向前跌倒、攀爬扶手带异常行为作为研究对象。在实际商场扶梯环境中采集了正常直行、向前跌倒、攀爬扶手带三种乘客行为视频,采集的视频包含了每种乘客行为1人、2人、3人三种情况。并进一步对视频进行切帧、裁剪、打码处理,建立了正常直行、向前跌倒、攀爬扶手带三类扶梯乘客行为原始图片集,使用Labelme对这些原始图片集进行标注进一步形成了扶梯乘客目标检测数据集EAB-D、姿态估计数据集EAB-P和异常行为分类数据集EAB-C。(2)提出了一种基于Alpha Pose的扶梯乘客异常行为检测框架。该框架首先将输入图像通过准确率和实时性能都较好的目标检测模型Yolov5把乘坐扶梯的行人检测出来,并进行描框处理;然后利用自顶向下的多人姿态估计算法Alpha Pose回归出框定行人的关节点信息,形成扶梯乘客的骨架特征图以提高分类模型的泛化性能;最后通过深度卷积神经网络分类模型Efficient Net对形成的骨架特征图分类。本文在自建的扶梯乘客异常行为数据集EAB上,分别对该算法的目标检测、多人姿态估计和骨架特征图分类部分的网络模型进行了训练和测试。实验结果显示,使用本文提出的检测框架对扶梯乘客异常行为进行分类识别,精确率达到了87.9%以上,总平均精确率达到了90.7%,总平均准确度达到了91.3%。在硬件条件为NVIDIA GTX1080Ti,操作系统为Ubuntu18.04的情况下,检测速度达到了21FPS-43FPS。(3)提出了一种剪枝位置自适应调整的卷积神经网络模型压缩算法。该算法主要由两部分组成,分别为基于注意力机制的通道剪枝方法与基于强化学习的模型相关剪枝策略。首先在公开数据集CIFAR-100上开展了实验,使用本文提出的剪枝算法对时下主流的深度卷积神经网络VGG19和Res Net56进行剪枝,并评估其剪枝的效果,然后,将重构模型在Image Net数据集上进行剪枝方法泛化性的评价。实验结果显示,该算法在保持模型高精度的同时可实现数据依赖的自适应剪枝,且算法具有普适性,可应用在各种深度卷积神经网络结构中。此外,本文将提出的自适应剪枝算法应用在本文提出的扶梯乘客异常行为检测框架中的Efficient Net分类网络模型上,在扶梯乘客异常行为分类识别总平均精确率和总平均准确度分别只下降约1.65%和1.20%的情况下,最低检测速度和最高检测速度却分别提升了约38.1%和44.1%。
基于视觉的肢体动作识别与评估研究
这是一篇关于动作识别,姿态估计,八度卷积,特征融合,动态时间规整,序列模式挖掘的论文, 主要内容为随着生活节奏的加快和疫情防控常态化,人们更倾向于居家健身锻炼,然而普通自学方式缺乏专业的指导,肢体动作不规范甚至错误会导致锻炼效果下降,还可能造成身体损伤。目前运动分析大多依靠专业传感器设备,日常锻炼难以普及。随着计算机视觉技术飞速发展,基于视觉的人体检测技术在安防监控、体育运动、游戏娱乐等领域广泛应用。将人体骨骼关键点检测算法应用到肢体动作识别与评估方面,可以辅助个人进行动作练习,增加锻炼趣味。本文从计算机视觉角度开展人体姿态运动分析研究,主要工作如下:(1)分析了人体动作识别与评估领域的国内外研究现状,阐述了基于视觉的二维人体姿态估计算法发展历程,对比优选出Open Pose作为本文姿态估计研究的基础算法。针对其网络结构复杂、模型参数量大的不足,提出了一种基于Oct-Mobile Net的轻量型Open Pose改进网络,在网络训练阶段对数据集进行了数据增强。实验结果表明,改进模型的计算量缩减至原模型的12%,检测速度提升了300%,检测精度仅降低了1.2%。(2)提出一种基于骨骼信息及多特征融合的姿态识别方法。通过改进Open Pose算法提取肢体关键点信息并做归一化处理,根据人体运动特点设计了空间几何和时间运动两方面特征,包括关键点位置、关节角度、关节距离和运动速度,并通过滑动窗口算法将两类特征融合。最后通过对比实验优选出分类器与特征类型的最佳组合,其中基于LSTM的融合特征动作分类器在自制八段锦数据中的识别准确率达到98.8%,在公开数据集KTH上的识别准确率达到97.2%。证明了多特征融合方法能较好的进行姿态分析,且方法具有一定普适性。(3)以健身运动八段锦为研究对象,提出了基于多模态信息的动作序列评估方法。将关键点坐标预处理后得到姿态向量,采用向量间的余弦距离表征动作相似度,通过动态时间规整算法计算出测试序列和模板序列的整体相似度,以此衡量练习动作与标准动作的整体相似性。将动作视频通过分类器转化为动作标签序列,结合八段锦健身动作周期性特点,提出一种基于区间长度的序列模式挖掘方法计算练习动作与标准动作的周期性和同步性。最后整合研究结果开发了八段锦动作识别与评估应用系统,该系统能够针对输入视频进行招式识别与量化评分,并对比显示标准姿态与练习姿态的关节角度差异,以此辅助练习者调节自身姿态,提高锻炼效果,实现智慧健身。本文含图63幅,表16个,参考文献68篇。
基于深度学习的实时动作识别方法研究
这是一篇关于深度学习,实时动作识别,目标检测,姿态估计,CTR-GCN的论文, 主要内容为近年来,随着计算机视觉领域的发展,基于深度学习的动作识别方法已逐渐应用到医疗监护、智能监控、运动分析等领域,是当前动作识别的主流方向和研究热点。然而,这些动作识别方法在实际应用中仍然存在实时性差、准确性低、鲁棒性弱等问题。基于此,本论文研究基于深度学习的实时动作识别方法具有一定的实际意义。论文着重对人物目标检测、骨架提取和姿态估计以及动作识别方法进行了研究,主要研究工作如下:1.针对现有人物目标检测模型存在的易漏检、鲁棒性和泛化能力差等问题,提出了一种基于改进YOLOv5s的人物目标检测方法。首先,对Le2i数据集进行多种方式扩充,以增强训练模型的鲁棒性和泛化能力;其次,使用Mobile Net V3作为主干网络来进行特征提取,以协调平衡模型的轻量化和准确性关系;然后,利用Bi FPN增强了模型多尺度特征的融合能力,并使用CBAM轻量级注意力机制,提升了模型的准确性;最后,引入Focal Loss损失评估使模型更注重挖掘困难样本特征,改善了正负样本失衡的问题。实验结果表明,优化后的YOLOv5s模型,在精确度、F1分数、检测速度上均有所提升。2.针对骨架提取和姿态估计的实时性差的问题,提出了一种轻量化的优化模型Light_Alphapose。首先,将姿态估计模型Alphapose中的目标检测器替换为本文优化后的YOLOv5s,在确保准确性的同时,极大的提升了目标检测的实时性和模型轻量化水平;其次,通过采用轻量化的姿态估计平滑滤波器,改善了骨架序列处理时的抖动问题;最后通过实验验证,Light_Alphapose在实时性、准确性和轻量化水平上均优于原模型。3.针对实时视频场景下动作识别准确率低等问题,提出了一种基于CTR-GCN的改进图卷积网络模型。首先,在三个不同阶段对原CTR-GCN模型采用改进空间建模结构等方式来轻量化模型;其次,使用数据增强、衰减函数来改善图卷积的过拟合现象;然后,借助全连接层将实时动作时序特征进行分类识别;最后,在每个特征层分别引入Drop Block,进一步提高了模型的拟合能力。实验结果表明,所提出的优化CTR-GCN模型在训练时的拟合能力更优,动作识别实时性和轻量化和优于原图卷积网络模型。4.在本文研究成果基础上,设计实现了一个基于Py Qt5框架的实时动作识别系统RARS,该系统包含三个流程模块:人物目标检测、骨架序列提取和动作识别,最终通过图形化界面显示,实现了人物动作实时分类识别功能。
特定领域下人体动作识别算法的研究与实现
这是一篇关于骨架动作识别,姿态估计,时空图卷积,注意力机制的论文, 主要内容为基于骨架的人体动作识别方法具有姿态数据特征明显、数据量小且不易受环境干扰等优势,在动作识别领域中取得突破性进展。本文将以特定领域下的考场环境为例,采用骨架数据对考场内考生的动作进行研究。分析考生动作中存在的问题,提出两种算法。由于国内外缺少考生动作检测系统,根据实际需求开发考生动作识别系统。手工设计的人体拓扑图结构在神经网络传输中结构固定不变,提取特征时无法获取全局信息。针对此问题,提出双模注意力时空图卷积网络。给出SGSAE模块,结合自注意力机制,对所有关节点之间的关系进行建模;给出MCA模块,引入通道注意力机制,融合通道特征。根据考生动作特点,构建考生动作数据集CAA。在自制数据集CAA中将动作识别准确率提升至53.7%;将Kinetics数据集中的Top1准确率提升至31.3%;在NTU-RGB+D60数据集中,CS的准确率提升至93.2%,CV的准确率提升至84.8%。针对动作特征相似以及时空特征无法统一建模的问题,提出多流多尺度统一时空图卷积动作识别方法。引入角度特征并给出两种角度计算方式,将节点、骨骼以及角度共同作为输入特征;给出统一时空图卷积方法,结合尺度运算,减少冗余权重。在考生动作数据集CAA中将动作识别准确率提升至60%;将Kinetics数据集中的Top1准确率提升至37.2%;在NTU-RGB+D60数据集中,CV的准确率提升至95%。针对考场内考生的动作识别任务,分析考试环境、提取考生姿态数据作为研究基础;设计并实现了考生动作识别系统。主要包含业务管理、数据管理、系统管理以及运维管理功能。使用动作识别算法检测出考生的异常动作,通过研判平台人工审核便可确定考生是否作弊。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设货栈 ,原文地址:https://bishedaima.com/lunwen/47862.html