基于深度学习的异常行为识别系统设计与实现
这是一篇关于异常行为识别系统,人体3D骨骼,双流网络,自注意力,短时序增强的论文, 主要内容为异常行为识别是行为识别领域内的重要分支,先识别出具体人体行为再判断是否异常。及时识别出人体异常行为在智慧看护、智能监控、运动辅助等领域内有重要意义,因此设计异常行为识别系统具有广泛的应用前景和重要的实际应用价值。目前,深度学习凭其强大的特征提取能力和快速的数据处理能力成为行为识别方法的主流,但实际落地的行为识别算法还有长序列建模难、模型复杂、鲁棒性差等问题。人体3D骨骼相较RGB等数据模态在更少的数据中包含了更丰富的语义信息并对环境光照变化有良好鲁棒性。基于以上背景,本文基于人体3D骨骼和自注意力机制提出了两种行为识别网络,并设计实现一种异常行为识别系统。(1)针对人体骨骼数据结构紧凑且序列较长的特点,提出了一种基于自注意力机制的双流时空自注意力网络,克服RNN和LSTM长序列建模时注意力丢失问题。该模型空间流提取人体关节空间结构特征,时间流提取关节点行为过程时序特征;使用自注意力对关节点时空变化关系建模,使用多头注意力从不同子空间关注不同的特征,使用Sum fusion融合两个流的预测分数;融合了关节运动和骨节特征输入模型空间流的结果。经NTU RGB+D数据集和SHREC 2017数据集验证,与其他先进方法对比,证明了所提网络模型的有效性。(2)针对双流时空自注意力网络识别效果好但计算成本较高,多特征融合方案实际落地有一定困难问题,提出了轻量的基于Transformer的短时序增强网络。模型基于单流方案,通过在空间流添加关节运动模块和短时序增强模块改善单流网络在时间维度建模能力弱的问题。模型主体有2个模块,关节运动模块,计算每帧与临近帧的差。将所有差以及关节点自身的特征分配不同权重作为注意力模块的输入;短时序增强模块,通过滑动窗口聚合关节点相邻帧的特征。使用NTU RGB+D数据集进行实验,取得良好的行为识别效果。(3)完成了异常行为识别系统的设计与实现,系统包括异常行为实时识别、离线识别、数据集拓展、录制视频四种功能。建立了异常行为数据集并使用建立的数据集重新训练基于Transformer的短时序增强网络,将最佳模型应用于异常行为识别系统。然后分析系统需求,设计系统的软件程序和系统UI,实现了异常行为识别系统相关功能。最后通过实验测试了系统各模块的功能,验证了系统的准确性、泛化性、鲁棒性和实时性。
基于深度学习的异常行为识别系统设计与实现
这是一篇关于异常行为识别系统,人体3D骨骼,双流网络,自注意力,短时序增强的论文, 主要内容为异常行为识别是行为识别领域内的重要分支,先识别出具体人体行为再判断是否异常。及时识别出人体异常行为在智慧看护、智能监控、运动辅助等领域内有重要意义,因此设计异常行为识别系统具有广泛的应用前景和重要的实际应用价值。目前,深度学习凭其强大的特征提取能力和快速的数据处理能力成为行为识别方法的主流,但实际落地的行为识别算法还有长序列建模难、模型复杂、鲁棒性差等问题。人体3D骨骼相较RGB等数据模态在更少的数据中包含了更丰富的语义信息并对环境光照变化有良好鲁棒性。基于以上背景,本文基于人体3D骨骼和自注意力机制提出了两种行为识别网络,并设计实现一种异常行为识别系统。(1)针对人体骨骼数据结构紧凑且序列较长的特点,提出了一种基于自注意力机制的双流时空自注意力网络,克服RNN和LSTM长序列建模时注意力丢失问题。该模型空间流提取人体关节空间结构特征,时间流提取关节点行为过程时序特征;使用自注意力对关节点时空变化关系建模,使用多头注意力从不同子空间关注不同的特征,使用Sum fusion融合两个流的预测分数;融合了关节运动和骨节特征输入模型空间流的结果。经NTU RGB+D数据集和SHREC 2017数据集验证,与其他先进方法对比,证明了所提网络模型的有效性。(2)针对双流时空自注意力网络识别效果好但计算成本较高,多特征融合方案实际落地有一定困难问题,提出了轻量的基于Transformer的短时序增强网络。模型基于单流方案,通过在空间流添加关节运动模块和短时序增强模块改善单流网络在时间维度建模能力弱的问题。模型主体有2个模块,关节运动模块,计算每帧与临近帧的差。将所有差以及关节点自身的特征分配不同权重作为注意力模块的输入;短时序增强模块,通过滑动窗口聚合关节点相邻帧的特征。使用NTU RGB+D数据集进行实验,取得良好的行为识别效果。(3)完成了异常行为识别系统的设计与实现,系统包括异常行为实时识别、离线识别、数据集拓展、录制视频四种功能。建立了异常行为数据集并使用建立的数据集重新训练基于Transformer的短时序增强网络,将最佳模型应用于异常行为识别系统。然后分析系统需求,设计系统的软件程序和系统UI,实现了异常行为识别系统相关功能。最后通过实验测试了系统各模块的功能,验证了系统的准确性、泛化性、鲁棒性和实时性。
基于特征融合的文本分类研究
这是一篇关于深度学习,文本分类,双流网络,特征融合,情感分类,讽刺检测的论文, 主要内容为现如今文本分类任务受到了社会的广泛关注,通过分析文本的类别和情感可以为企业提供优质的用户属性和数据,提高下游模型和服务的实际效果,提升企业收益。随着网络社会的发展,多种多样的文本形式也给文本研究带来了挑战,目前多数研究通过深度学习的方法来挖掘关键文本的信息,但现有的预训练和神经网络模型对细分语义的分析有待提高,淡化了文本中细分语义之间对立与统一的关系,误判了语句情感和意义。为了提高模型分析细分语义间关系的能力,本文设计了双流网络来关联语句的矛盾语义和核心语句段,设计特征投影和卷积层处理矛盾词的语义信息。本文的主要研究内容可以概括为:(1)考虑到语句中表达语义的核心词与矛盾词冲突,本文提出了一个基于梯度反转层和特征投影层的特征增强网络(Feature Augmentation Network,FANet),该网络包括一般特征提取模块和滞后特征提取模块。其中,一般特征提取模块包括Text CNN,BERT,Ro BERTa;滞后特征提取模块内部叠加了一个梯度反转层来反转特征向量的梯度,使辅助网络的参数往梯度相反的方向更新,其目的是提取文本的滞后信息。特征投影层则利用特征投影的方式消除滞后特征向量中的有害信息,保留与一般特征向量有关的语义信息。最后合并过滤后的滞后特征和正常特征,纠正模型过分关注矛盾词,丰富特征向量的语义信息。(2)考虑到讽刺检测中细分语义间的矛盾关系会构成讽刺语义,本文提出了一个将卷积神经网络作为融合器的多分类融合网络(Multi-CLS Fusion Network,MCF-Net)。该网络包含多分类特征提取模块和卷积融合模块,利用不同的卷积核感受野融合若干分类特征,进而增强模型捕捉全局语义的能力。首先,利用多分类特征提取模块提取若干个分类特征。其次,利用卷积融合模块整合特征向量,以结合不同特征向量所表达的语义。最后,将融合后的特征向量作为网络最终的表达特征,以此让模型能够吸收更多的语义信息,提高模型对细分语义的理解能力并通过分析细分语义间的关系来识别讽刺语义。本研究将该方法运用在三个基础模型中,并在六个数据集下进行实验。结果表明,本研究的方法在六种数据集上获得比基础模型更高的结果。并且本研究从注意力可视化的角度证明了该模型可以根据任务分析细分语义间的关系。因此,本研究具有一定应用价值,为含有矛盾语义的文本分析提供了新的方法。
基于人体骨骼关键点的行为识别研究与实现
这是一篇关于计算机视觉,人体行为识别,骨骼关键点,OpenPose,双流网络的论文, 主要内容为近年来,随着人体行为识别技术火热发展,吸引了越来越多科研工作者的广泛关注。目前基于视频的行为识别方法中,传统双流法的识别准确率较好,且最具代表性。但是传统双流法依然存在不足,该算法中时间流网络的输入是光流图,而光流图的计算需要消耗大量的时间,无法保证检测的实时性。虽然基于骨架数据集的行为识别具有不受光照强度、背景混入等因素的干扰,鲁棒性较好等优点。但是在现实环境下人体的行为复杂多样,不同的行为之间可能存在很多相似的动作,如果过度关注骨架信息,而忽略视频中的其他信息,计算机可能会有误判的情况发生,从而降低识别准确率。因此,本文针对以上问题,提出了一种融合图像信息和骨架信息的行为识别方法,该方法在保留其骨架数据集优点的同时,并结合视频的图像信息,使识别准确率得到进一步提升。本文的研究内容主要如下:1.本文通过对OpenPose姿态提取算法的深入研究,对OpenPose算法进行了改进。原OpenPose算法的特征提取网络为VGG-19,该特征提取网络的层数较深,参数量大,对于计算能力有限的硬件设备无法保证检测的实时性,所以本文采用轻量级Mobile Net-V3对其进行替换,使其能够在保证精确度稳定的前提下提高帧率。通过实验对比发现,改进后的OpenPose算法相比于原始算法检测速度大概提升了20 FPS,基本达到了普通客户端的使用需求。2.由于骨架数据集中不仅蕴含空间信息,而且还蕴含丰富时序信息,因此搭建了一支既可以获取骨架数据集空间信息又可以获取骨架数据集时序信息的骨架流网络,该骨架流网络使用Goog Le Net的Inception网络来提取时间信息,LSTM网络来提取时序信息,并将这两部分信息进行特征融合得到一个初步的行为分类结果。3.本文又对基于视频图像的行为识别方法进行了研究,针对传统的卷积神经网络通常只选取视频中某一帧图像来进行提取特征,获取的信息不够丰富的缺点。因此本文借鉴时间分段网络的稀疏时间采样策略,并在此基础上对时间分段网络进行改进,裁剪去时间流网络分支,并将空间流的特征提取网络替换成网络层数更深的Res Net-50网络,使其能够获取到更加丰富的图像信息。最后将骨架流和图像流网络分别得到的信息进行特征融合,构造出一个新双流网络模型。通过实验证明了本文提出融合骨架流和图像流的行为识别算法的可行性和有效性。
基于时空双流网络的面部情绪识别系统研究与实现
这是一篇关于面部情绪识别,双流网络,深度学习,可控金字塔的论文, 主要内容为随着互联网时代的到来,人工智能行业成为了国家经济和科技的引领行业,其中通过面部情绪的人工智能识别已经成为当前社会的一个研究热点。根据现阶段的研究发现,用户在相互交流的过程中,绝大多数信息都是借助表情这个媒介进行传达的,用户在进行表述的同时,面部表情也会发生相应的变化,因此,可以利用用户的面部表情变化进而来识别用户的情感变化趋势。情绪可以用肉眼看不见的许多不同形式表示。使用正确的工具,可以检测和识别人脸的面部情绪。在过去的几年中,对人体情绪检测的需求正在增加。情绪识别开始广泛应用于人机界面、动画、医学和安全性等领域。本文在面部情绪识别的基础上研究与实现了对面部情绪识别的系统,将微运动和宏运动功能相结合,提出时空双流网络来改善视频情绪识别。该网络集成结构捕获了有关微观和宏观运动的信息将有益于情绪的相关预测,即较小的和较短的微运动通过双流网络进行分析,而较大的和较持久的宏运动可以通过后续的递归网络很好地捕获。针对面部情绪识别系统的设计确定系统的体系结构为B/S架构,并对系统的总体框架、功能结构及功能实现的总体流程进行设计。根据系统流程,设计了相关的数据库结构和功能。在对人脸进行情绪识别之前,首先对本文用到的Aff-Wild数据集进行预处理,接着将处理后的数据集传入时空双流网络中进行情绪识别。本文提出的时空双流网络采用深度学习框架,训练过程为时空双流并行运行。在时间流中,选用帧间相位差替换光流作为时间流的输入,并将一系列灰度图像馈入到时间流的可控金字塔模型中,同时将预处理后的RGB图像传入空间流改进的Res Net50网络中进行处理,通过时空特征的融合提高了面部情绪识别的能力。基于本文时空双流网络情绪识别的系统,首先搭建了系统服务器,配置系统所需要的硬件和软件环境,完善系统的各项功能模块,并将系统部署于本地的服务器上,测试了系统的功能性和稳定性两个方面,最后对人脸面部情绪识别系统进行了成功的调试。经过对面部情绪识别系统的测试,验证出该系统可以很好的完成设计中的各项需求。面部情绪识别系统可以从本地上传视频、上传单人照片、多人照片进行识别,也可以对人脸进行实时的情绪检测并在屏幕输出结果。另外可以通过B/S系统对用户信息及系统信息进行管理。该系统经过测试后各模块均达到理想效果。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码客栈网 ,原文地址:https://bishedaima.com/lunwen/54409.html