基于人脸图像的视频检索系统
这是一篇关于深度学习,关键帧提取,人脸检测的论文, 主要内容为进入21世纪,互联网技术不断进步,多媒体逐渐成为人们获取信息的主要来源,其中视频因有着传输方便、生动直观、信息量大等一系列特点所以得到了大范围的应用。同时,随着国内各类视频监控的普及应用,视频监控开始普遍的应用于教育、公共安防等领域。然而如果想要在视频监控中找出想要的特定目标,仅仅通过人工浏览来进行查找,那一方面工作人员会因为长时间的眼部工作产生视觉疲劳,另一方面也极有可能会在观看视频时漏掉想要查找的特定目标,从而影响检索的速率和准确率。本文对比分析了基于帧间差分和聚类算法的视频关键帧提取方法、基于YOLO v4的人脸检测识别方法,设计实现了面向学生管理工作需要的基于人脸图像的视频检索系统。系统以Springboot和vue框架为基础,采用帧间差分算法来对视频关键帧进行提取,利用YOLO v4方法对视频关键帧中的人脸目标进行检测并做出框选,使用ArcFace算法对框选出的人脸图片进行特征提取,通过对待检测图片人脸特征与数据库内关键帧的人脸特征进行相似性度量,从而比对出是否存在待检测人脸。系统使用了mysql数据库和mybatis框架,综合使用Java和Python程序设计语言开发完成。本文所实现的视频检索系统以学生证件照和监控视频为输入,输出检索后得到的、包含待检索人脸的视频监控片段,对于目标人脸的检测查全率方面可达95.6%,检测速度方面对时长为1小时的监控视频可以在6分钟左右的时间完成检测,可以满足准确、实时的要求。这将为学校学生管理工作者提供及时、高效的信息化手段,学生管理工作者在需要查阅校园内视频监控时可借助该系统快速确定某学生在视频监控中出现的位置、时间等信息。
基于深浅层特征融合的视频检索技术研究
这是一篇关于视频检索,深浅层特征融合,关键帧提取,特征提取的论文, 主要内容为随着互联网技术与智能电子设备的发展,视频逐渐成为当今信息交流的主导形式。而各种短视频平台的兴起,也为互联网用户快速浏览、上传和下载视频提供了便利,视频数据量呈现指数级增长。大量的视频数据不断产生,如何对视频信息进行有效管理和快速检索已经成为一个关键性问题。现有的视频检索方式以基于内容的视频检索为主,它能够根据输入的视觉内容,检索到与之内容相似的视频。本文主要对该技术中的关键帧提取、特征提取两个部分进行研究,并设计了视频检索系统进行应用。目前,在关键帧提取方面,现有方法以基于聚类为主,忽略了视频的时序特性、提取特征单一,无法充分表达视觉内容。在特征提取方面,单个特征生成的哈希码容易造成错误匹配的现象。针对关键帧提取、特征提取技术存在的不足,本文进行了以下工作:(1)在关键帧提取方面,本文提出一种改进的深浅层特征融合的关键帧提取算法。首先,构建视频摘要模型预测每帧得分。通过融合深层CNN特征与浅层SURF特征来改进无监督模型,提高特征描述符对图像的表述能力,降低训练时真实数据缺失造成的影响;使用Bi LSTM作为主体网络来读取视频帧的上下文信息,采用奖励机制提升网络的性能。最后,根据模型输出结果生成视频摘要。使用动态规划算法来提取关键镜头;设计了基于局部极大值的关键帧提取算法,根据镜头内帧重要性分数的极大值来选择关键帧,并计算特征相似度去除冗余。(2)在视频特征提取方面,本文结合SURF与p Hash来进行特征提取。首先,改进p Hash算法来减少哈希码长度。再提取图像的SURF特征,并对SURF使用VLAD进行编码,保留更多的特征细节信息;使用PCA在较大程度上保留特征信息,降低特征维度;使用LSH对该特征进行哈希编码。将上述处理后的两种特征结合,用于检索。(3)应用上述两部分研究内容,实现了视频检索系统。在系统中,输入图像,能够检索到包含相似内容的视频并进行展示。最后,本文通过进行相关实验,验证了所提算法在视频检索中的有效性,并将本文研究内容应用至视频检索系统。
基于单目视觉的手语-唇语转化系统研究与实现
这是一篇关于手语识别,K-means,关键帧提取,SSD目标检测网络的论文, 主要内容为在聋校语言教学中,双语教学模式能有效提高聋童的语言学习效率,但对于特殊教师们来说则需花费更多的耐心、时间和精力。面临着我国特殊教育学校的教师资源普遍薄弱的现状,手语识别技术可帮助特教完成语言教学任务——聋童将手语录成视频输入计算机,进而能够学习输出的汉字和唇语,无需老师亲自教学就能完成汉语书面语的学习。另外,计算机只对标准的手语(以《中国手语》为标准)进行识别,借此还可纠正聋童手语方言化的问题。本文研究的是基于单目视觉的手语-唇语转化系统,其关键难点在于手语识别,具体工作如下:一、视频关键帧提取。首先分析了常见的4种视频关键帧提取方法,为了在能完整提取所有关键帧的前提下尽可能消除冗余帧,提出一种基于聚类的视频关键帧优化提取算法。利用卷积自编码器(CAE)神经网络提取视频帧的深度特征,对提取到的特征进行K-means聚类后,采用清晰度筛选取出最清晰的视频帧作为首次提取到的关键帧,再利用点密度方法进行关键帧的二次优化。实验结果表明,本算法能大量消除冗余帧,并同时保证关键帧的完整性。二、对关键帧进行手势识别。针对手部小目标对SSD目标检测网络做了几点改进:将SE-Net嵌入SSD中的特征层提高重要通道的权重;改变损失函数以更好地应对正负样本不均衡问题;使用mixup和归一化操作优化网络的训练。实验结果表明,本文改进的SSD有更高的识别精度。三、手语-唇语转化系统的实现。为了使系统具有更强的实用性和可推广性,输入的彩色手语视频采用单目摄像头录制;为了使手语者自然地表达,手语者打手语时无需佩戴任何设备或在手上做任何标记。系统的第一个输出为汉字和拼音,第二个输出是与汉字相对应的唇语视频。最后使用Vue.js和Spring Boot技术搭建了展示系统的网页。本系统面向的用户是聋人儿童,希望他们能借助自己熟悉的手语学习汉语,包括书面语和口语,不需要特教亲自反复教学就能进行语言学习,对聋校的语言教学具有一定的辅助作用。整个系统只需要借助一个单目摄像头,脱离了其他技术和外物的限制,因此系统的实用性和可推广性更强,具有很大的应用前景。
内窥镜视频关键帧提取方法研究
这是一篇关于内窥镜视频,图像质量评估,卷积神经网络,关键帧提取的论文, 主要内容为内窥镜视频被广泛运用于医学教育、远程手术、疾病诊断等方面,但一段未经剪辑的内窥镜视频有着大量的模糊片段与冗余片段,严重影响着整段视频的浏览体验,增加了信息获取的时间成本,因此,需要探索内窥镜视频的解析方法。关键帧是一组清晰的、包含了足够信息量的视频图像集,能概括一段视频所表达的主要内容。为了提取出清晰的关键帧,提出了先进行模糊帧识别和去除、再进行关键帧提取的方法。模糊帧识别属于图像质量评估计算的流程,通过对内窥镜视频的图像帧进行清晰度质量评分,将评分较低的划分为模糊帧并加以去除,保留清晰帧用于关键帧的提取。为了评估内窥镜视频图像帧的清晰度,提出了多级特征融合网络(Multi-Level Feature Fusion Network,MLFF-Net),在Unet网络的基础上加入了非对称残差块(Asymmetric Residual Block,ARBlock)和多尺度卷积块(Multi-Scale Convolutional Block,MSCBlock),提高网络对图像特征的提取能力,并将解码器阶段不同层次的特征输出进行融合,输入质量评分模块中,进行质量评分。为了得到更加符合主观评分的标签,设计了模糊图像生成方法和图像评分方法,使用生成的数据集训练MLFF-Net。在关键帧提取流程中,使用了基于图像熵和密度聚类的方法和基于ORB(Oriented Fast and Rotated Brief)特征提取的方法,并且对ORB提取方法进行了改进,在选择关键帧时加入了与后续图像的对比,丰富了当前帧的上下文信息。在模糊帧识别实验中,测试集包含了468幅图像,提出的MLFF-Net在斯皮尔曼等级相关系数(Spearman Rank-Order Correlation Coefficient,SROCC)和皮尔逊线性相关系数(Pearson Linear Correlation Coefficient,PLCC)指标上分别达到了0.9540和0.9568的结果,优于Unet结构,并且在5 000幅原始数据的测试中也达到了82.3%的模糊帧识别准确率;在关键帧提取实验中,验证了改进后的ORB方法拥有更好的性能,同时也通过对比实验证明了模糊帧识别流程的加入给内窥镜视频的关键帧提取结果带来了提升,使模糊帧比例从21.97%下降到4.59%。
内窥镜视频关键帧提取方法研究
这是一篇关于内窥镜视频,图像质量评估,卷积神经网络,关键帧提取的论文, 主要内容为内窥镜视频被广泛运用于医学教育、远程手术、疾病诊断等方面,但一段未经剪辑的内窥镜视频有着大量的模糊片段与冗余片段,严重影响着整段视频的浏览体验,增加了信息获取的时间成本,因此,需要探索内窥镜视频的解析方法。关键帧是一组清晰的、包含了足够信息量的视频图像集,能概括一段视频所表达的主要内容。为了提取出清晰的关键帧,提出了先进行模糊帧识别和去除、再进行关键帧提取的方法。模糊帧识别属于图像质量评估计算的流程,通过对内窥镜视频的图像帧进行清晰度质量评分,将评分较低的划分为模糊帧并加以去除,保留清晰帧用于关键帧的提取。为了评估内窥镜视频图像帧的清晰度,提出了多级特征融合网络(Multi-Level Feature Fusion Network,MLFF-Net),在Unet网络的基础上加入了非对称残差块(Asymmetric Residual Block,ARBlock)和多尺度卷积块(Multi-Scale Convolutional Block,MSCBlock),提高网络对图像特征的提取能力,并将解码器阶段不同层次的特征输出进行融合,输入质量评分模块中,进行质量评分。为了得到更加符合主观评分的标签,设计了模糊图像生成方法和图像评分方法,使用生成的数据集训练MLFF-Net。在关键帧提取流程中,使用了基于图像熵和密度聚类的方法和基于ORB(Oriented Fast and Rotated Brief)特征提取的方法,并且对ORB提取方法进行了改进,在选择关键帧时加入了与后续图像的对比,丰富了当前帧的上下文信息。在模糊帧识别实验中,测试集包含了468幅图像,提出的MLFF-Net在斯皮尔曼等级相关系数(Spearman Rank-Order Correlation Coefficient,SROCC)和皮尔逊线性相关系数(Pearson Linear Correlation Coefficient,PLCC)指标上分别达到了0.9540和0.9568的结果,优于Unet结构,并且在5 000幅原始数据的测试中也达到了82.3%的模糊帧识别准确率;在关键帧提取实验中,验证了改进后的ORB方法拥有更好的性能,同时也通过对比实验证明了模糊帧识别流程的加入给内窥镜视频的关键帧提取结果带来了提升,使模糊帧比例从21.97%下降到4.59%。
基于深浅层特征融合的视频检索技术研究
这是一篇关于视频检索,深浅层特征融合,关键帧提取,特征提取的论文, 主要内容为随着互联网技术与智能电子设备的发展,视频逐渐成为当今信息交流的主导形式。而各种短视频平台的兴起,也为互联网用户快速浏览、上传和下载视频提供了便利,视频数据量呈现指数级增长。大量的视频数据不断产生,如何对视频信息进行有效管理和快速检索已经成为一个关键性问题。现有的视频检索方式以基于内容的视频检索为主,它能够根据输入的视觉内容,检索到与之内容相似的视频。本文主要对该技术中的关键帧提取、特征提取两个部分进行研究,并设计了视频检索系统进行应用。目前,在关键帧提取方面,现有方法以基于聚类为主,忽略了视频的时序特性、提取特征单一,无法充分表达视觉内容。在特征提取方面,单个特征生成的哈希码容易造成错误匹配的现象。针对关键帧提取、特征提取技术存在的不足,本文进行了以下工作:(1)在关键帧提取方面,本文提出一种改进的深浅层特征融合的关键帧提取算法。首先,构建视频摘要模型预测每帧得分。通过融合深层CNN特征与浅层SURF特征来改进无监督模型,提高特征描述符对图像的表述能力,降低训练时真实数据缺失造成的影响;使用Bi LSTM作为主体网络来读取视频帧的上下文信息,采用奖励机制提升网络的性能。最后,根据模型输出结果生成视频摘要。使用动态规划算法来提取关键镜头;设计了基于局部极大值的关键帧提取算法,根据镜头内帧重要性分数的极大值来选择关键帧,并计算特征相似度去除冗余。(2)在视频特征提取方面,本文结合SURF与p Hash来进行特征提取。首先,改进p Hash算法来减少哈希码长度。再提取图像的SURF特征,并对SURF使用VLAD进行编码,保留更多的特征细节信息;使用PCA在较大程度上保留特征信息,降低特征维度;使用LSH对该特征进行哈希编码。将上述处理后的两种特征结合,用于检索。(3)应用上述两部分研究内容,实现了视频检索系统。在系统中,输入图像,能够检索到包含相似内容的视频并进行展示。最后,本文通过进行相关实验,验证了所提算法在视频检索中的有效性,并将本文研究内容应用至视频检索系统。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码驿站 ,原文地址:https://bishedaima.com/lunwen/46347.html