混合现实中情绪识别的研究与应用
这是一篇关于混合现实,表情识别,生成式对抗网络,遮挡图像修复的论文, 主要内容为在人与人之间的交流中,有超过65%的信息是通过非语言类信息进行传递的,尤其是面部表情信息,它对交流体验感有着重要的作用。但在目前混合现实协作环境中,感知能力往往是交互系统中欠缺的一部分。用户在使用混合现实应用过程中,需要佩戴头戴式显示器,设备对人脸中眼部区域造成了遮挡,无法通过面部表情传递给其他人相关的信息,这对人与人之间的理解产生一定的影响。因此本文针对混合现实交互系统中情绪共享问题进行了深入研究。具体来说,本文的主要研究内容及贡献如下:(1)针对混合现实环境下存在眼部遮挡影响表情识别结果的问题,提出了一种基于生成式对抗网络的眼部遮挡图像修复算法模型(Eye Inpainting GAN,EIGAN)。该模型是由一个生成器和两个判别器构成。生成器用于生成遮挡图像中的眼部区域,两个判别器一个用来确保图像修补区域的一致性,另一个用来确保生成图像整体的连贯性。实验结果表明,EIGAN模型生成的修复图像相较于其他算法模型不仅完成缺失内容的修补,还确保了图像整体的一致性。(2)提出一种针对Hololens遮挡场景下的表情识别算法模型Holo Face Net。该模型可以对Hololens遮挡的人脸图像进行表情识别,模型包括三个模块,分别是人脸检测/预处理模块、人脸图像遮挡修复模块和面部表情识别模块。人脸检测/预处理模块是对Hololens遮挡下的人脸区域以及Hololens头显区域进行检测,生成眼部遮挡的人脸图像。人脸图像遮挡修复模块是使用EIGAN模型对预处理后图像的遮挡区域进行修复。面部表情识别模块是基于SE-Res Net18网络对修复完成的人脸图像进行情绪分类识别。最终实验结果表明,Holo Face Net模型性能优于其他针对眼部遮挡的人脸表情识别算法,可以完成Hololens遮挡场景下的表情识别任务。(3)开发了一个基于情绪共享的混合现实交互应用。该应用通过获取Hololens头显中摄像机的数据,结合Holo Face Net模型实现人脸表情的识别,最终根据识别结果在混合现实场景中渲染对应表情模型,实现多人协同操作过程中情绪的共享。为了验证情绪共享是否会对混合现实交互产生重要的影响,本文对比了用户在基于情绪共享的混合现实交互系统中,与在没有情绪共享的混合现实交互系统中的交互感受,通过系统功能可用性分析、情绪共享功能的可用性分析、用户主观喜好分析、半结构访谈等方式,对受试者的反馈进行分析。最终分析结果表明,本文实现的基于情绪共享的混合现实交互系统具有较好的实用性,同时也改善了多用户之间的协同交互体验。本文针对混合现实中情绪识别的相关问题,设计并开发了一个基于情绪共享的混合现实应用,该应用结合Holo Face Net模型实现了混合现实环境下人脸表情的识别和共享。通过实验的对比分析,该系统可以改善混合现实环境下多人协同的交互体验,具有较好的实用性,同时也说明了在混合现实环境下进行情绪的相关研究对交互系统的完善具有重要的意义。
基于特征融合和注意力机制的人脸表情识别方法研究
这是一篇关于表情识别,深度学习,特征融合,注意力机制,焦点损失函数的论文, 主要内容为面部表情在人与人之间的交流中扮演着重要的角色。目前,人脸表情识别在人机交互、教学评估和交通安全等领域都得到了广泛的应用。然而,传统卷积神经网络在人脸表情识别过程中存在一定的缺陷,例如特征提取的针对性不强,以及非受控环境下表情识别的准确率不高。因此,设计一个能够提取更加全面且丰富的特征信息的网络模型是一个非常具有挑战性的任务。针对上述问题,本文设计了一种深度学习网络模型,并将其命名为基于特征融合和注意力机制的网络模型(Feature Fusion and Attention Mechanism Network,FFAM-Net)。该模型主要由Res Net18_Attention特征提取网络、局部特征提取模块、表情不确定性模块三部分组成。所提出方法的创新点具体来说:1)由于Res Net18卷积神经网络无法提取到具有鉴别性的表情特征,本文提出了一种新的Res Net18_Attention特征提取网络。该网络能够从通道和空间两个角度来提取与面部表情区域相关的融合特征,从而提升网络模型的整体性能。2)自然环境下的表情识别容易受到遮挡、姿态变化等因素的影响,仅提取面部表情的全局特征会对表情识别的效果产生一定影响。因此,本文提出了局部特征提取模块(Local Feature Extraction Module,LFEM),该模块可以提取到面部表情图像的局部特征,局部特征能够弥补全局特征的不足,进而有效地解决表情识别领域中存在的遮挡、姿态变化等问题。3)本文设计了一个新的CF_Loss损失函数,它由交叉熵损失函数(Cross-Entropy Loss)和焦点损失函数(Focal Loss)组成。焦点损失函数是在交叉熵损失函数的基础上,增加一个调节因子来降低易分类样本的权重,从而使得表情不确定性模块聚焦于难以区分的样本,最终提高FFAM-Net网络模型的整体性能。为了验证本文所提出的FFAM-Net模型的有效性,本文在两个公开的大规模静态人脸表情图像数据集RAF-DB和FERPLUS上分别进行了相关实验,实验结果表明本文提出的FFAM-Net模型能够取得较好的表情识别效果,性能总体优于基准方法和当前一些其它主流的人脸表情识别方法。
混合现实中情绪识别的研究与应用
这是一篇关于混合现实,表情识别,生成式对抗网络,遮挡图像修复的论文, 主要内容为在人与人之间的交流中,有超过65%的信息是通过非语言类信息进行传递的,尤其是面部表情信息,它对交流体验感有着重要的作用。但在目前混合现实协作环境中,感知能力往往是交互系统中欠缺的一部分。用户在使用混合现实应用过程中,需要佩戴头戴式显示器,设备对人脸中眼部区域造成了遮挡,无法通过面部表情传递给其他人相关的信息,这对人与人之间的理解产生一定的影响。因此本文针对混合现实交互系统中情绪共享问题进行了深入研究。具体来说,本文的主要研究内容及贡献如下:(1)针对混合现实环境下存在眼部遮挡影响表情识别结果的问题,提出了一种基于生成式对抗网络的眼部遮挡图像修复算法模型(Eye Inpainting GAN,EIGAN)。该模型是由一个生成器和两个判别器构成。生成器用于生成遮挡图像中的眼部区域,两个判别器一个用来确保图像修补区域的一致性,另一个用来确保生成图像整体的连贯性。实验结果表明,EIGAN模型生成的修复图像相较于其他算法模型不仅完成缺失内容的修补,还确保了图像整体的一致性。(2)提出一种针对Hololens遮挡场景下的表情识别算法模型Holo Face Net。该模型可以对Hololens遮挡的人脸图像进行表情识别,模型包括三个模块,分别是人脸检测/预处理模块、人脸图像遮挡修复模块和面部表情识别模块。人脸检测/预处理模块是对Hololens遮挡下的人脸区域以及Hololens头显区域进行检测,生成眼部遮挡的人脸图像。人脸图像遮挡修复模块是使用EIGAN模型对预处理后图像的遮挡区域进行修复。面部表情识别模块是基于SE-Res Net18网络对修复完成的人脸图像进行情绪分类识别。最终实验结果表明,Holo Face Net模型性能优于其他针对眼部遮挡的人脸表情识别算法,可以完成Hololens遮挡场景下的表情识别任务。(3)开发了一个基于情绪共享的混合现实交互应用。该应用通过获取Hololens头显中摄像机的数据,结合Holo Face Net模型实现人脸表情的识别,最终根据识别结果在混合现实场景中渲染对应表情模型,实现多人协同操作过程中情绪的共享。为了验证情绪共享是否会对混合现实交互产生重要的影响,本文对比了用户在基于情绪共享的混合现实交互系统中,与在没有情绪共享的混合现实交互系统中的交互感受,通过系统功能可用性分析、情绪共享功能的可用性分析、用户主观喜好分析、半结构访谈等方式,对受试者的反馈进行分析。最终分析结果表明,本文实现的基于情绪共享的混合现实交互系统具有较好的实用性,同时也改善了多用户之间的协同交互体验。本文针对混合现实中情绪识别的相关问题,设计并开发了一个基于情绪共享的混合现实应用,该应用结合Holo Face Net模型实现了混合现实环境下人脸表情的识别和共享。通过实验的对比分析,该系统可以改善混合现实环境下多人协同的交互体验,具有较好的实用性,同时也说明了在混合现实环境下进行情绪的相关研究对交互系统的完善具有重要的意义。
基于深度可分离卷积的在线教育学生听课表情识别算法
这是一篇关于深度学习,在线教育,卷积神经网络,表情识别,注意力机制的论文, 主要内容为随着互联网时代教育资源的不断丰富,在线教育逐渐发展成熟。与传统教育模式不同,在线教育环境下的资源多样化可以让学习者自主选择感兴趣的课程学习,不仅丰富了学习方式也进一步促进了教育个性化和公平化发展。在线教育在给学习带来便利的同时,也暴露了诸多问题,例如因脱离教师监督导致学生“虚假”学习状态和“虚构”学习情绪的问题。面部表情是情绪的直接表达方式,通过研究在线教育中学生的学习表情从而获取学生学习过程中的情绪状态和心理状态,通过进一步分析学生学习情绪的变化,教师可以及时调整教学策略,从而提高教学效果。近年来深度学习技术被广泛应用于面部表情识别研究,卷积神经网络与传统的方法相比具有更好的泛化能力和鲁棒性被作为表情识别的核心架构。面部表情识别研究也是当前社会的研究热点,表情识别具有数据获取便捷性和高效性的特点,受到教育技术学者的重视。以提升卷积神经网络的特征提取能力为出发点,本文研究了具有出色表达能力的网络模型,提出提高学生在线学习表情识别准确率的网络学习算法。然后,将该理论研究成果应用于学生在线教育环境中的听课表情识别中,可促进互联网时代线上教育与信息技术深度融合与发展。本文的主要研究成果如下。深度可分离卷积可减少模型的参数量以提高模型的特征提取能力。通过将深度可分离卷积与经典的Le Net-5模型融合,借助深度可分离卷积层构建融合网络,修定模型中卷积核的数量以及卷积核大小,引入Dropout机制,提出改进的Le Net-5模型,显著提高表情识别准确率。为了验证模型的正确性,将其应用于CK+数据集、Oulu-CASIA数据集和OL-SFED学习表情数据集等实验数据集,进行面部检测、尺度归一化、数据增强和表情识别处理,实验结果表明,改进后模型的识别准确率大幅度提升,模型表达能力得到有效提高。设计了一个基于注意力机制的双通道可分离卷积表情识别模型。该模型采用深度可分离卷积替代标准卷积,使用大小为5×5和7×7的卷积核连接激活函数和BN层,借助SE模块构成了双通道可分离卷积层。SE模块作为典型的通道注意力机制,不同通道的特征能够被赋予不同的权重,加强有效特征抑制无效特征以提高模型的特征提取能力,提升识别准确率。提出的模型在实验数据集上表现出具有优良的识别效果。
基于特征融合和注意力机制的人脸表情识别算法研究
这是一篇关于表情识别,深度学习,迁移学习,特征融合,注意力机制,ResNet50的论文, 主要内容为随着卷积神经网络的出现,从原始图像中获取更高级的特征成为可能,这一进展推动了诸多研究领域的发展。然而在实际训练中,过深的网络容易产生退化问题,性能反而不如较浅的网络,残差网络的出现成功的解决了这个问题。本文引入残差网络作为骨干网络,进行对人脸表情识别领域的深入研究。为了更好地提升网络模型的特征提取能力以及鲁棒性,本文在残差网络的基础结构上,开展了基于特征融合和注意力机制的人脸表情识别算法研究,主要工作如下:(1)针对人脸表情识别算法训练数据不足且训练参数量过大的问题,提出了一种基于迁移学习与残差网络的人脸表情识别模型和算法。根据迁移学习思想,将在Image Net数据集上预训练好的Res Net50模型迁移到新的数据集FER2013上,采用多种技术进行数据增强,有效扩大了训练数据集,解决了训练数据不足的问题。针对输入图片尺寸小于残差网络默认输入尺寸的问题,选取双线性插值法使得输入图片在近5倍的放大后不发生失真,较好地保留了图像的细节。所提出模型针对训练参数量过大的问题做了两点设计:首先,将预训练模型Res Net50的网络参数迁移到本研究中,并冻结部分卷积层(layer0至layer3)进行微调,减少了训练参数量。其次,考虑全连接层参数过多而极易发生过拟合现象,采取全局平均池化层代替传统的全连接层来实现降维,并添加随机失活来降低网络模型对局部特征的依赖性。为了避免模型陷入局部最优解,引入余弦退火学习率衰减策略对学习率进一步进行优化。对比实验表明,所提出的模型和算法具有良好的抗过拟合能力。(2)针对所改进的算法鲁棒性不足的问题,提出一种基于特征融合和注意力机制的人脸表情识别模型和算法。利用Res Net50网络模型不同层次输出特征之间的互补性,设计特征融合模块将各层优点合并成一个更具有识别能力的输出特征,与包含丰富语义特征的末层特征共同进行后续处理。本文设计一个RKTM(Runge-Kutta Transformer)注意力模块,将其放置在特征融合模块之后,从而重新校准融合的特征。基于特征融合和注意力机制的实验表明,两者协同有效地达到进一步平衡网络的效果。所提出模型和算法有效提升了系统鲁棒性,进一步提高识别准确率。最终,通过消融实验验证每个模块的有效性以及对整体模型的影响程度。
儿童注意力的人工智能评估方法研究
这是一篇关于深度学习,表情识别,姿态估计,注意力,网络教学的论文, 主要内容为随着“互联网+”教育发展,网络课堂突破时空局限,同时也存在不足,例如老师不能面对面及时了解学生的课堂认知状态。因此,知晓网络课堂中学生注意力水平是重点问题。本文研究目的是利用深度学习来评估学生在网络课堂上的注意力水平,包括人面检测、表情识别、姿态估计,并且基于这些模型进行注意力状态判定实验的验证与分析。本文内容主要包括如下三个工作:首先,研究了基于表情识别的注意力状态检测模型。本文对人脸检测和表情识别相关理论进行了深入研究,利用MTCNN网络(Multi-task Cascaded Convolutional Networks)进行人脸检测,在人脸数据集WIDER FACE和Celeb A(Celeb Faces Attribute)验证集上,Io U(Intersection over Union)为0.6时准确率达91.8%,召回率80.8%。然后实现了四种视频分类算法和一种本文提出的模型,经过分析比较,选择采用本文提出的基于Transformer的视频分类网络作为注意力状态分类框架,在疲劳驾驶数据集Yaw DD(Yawning Detection Dataset)验证集上对视频分类准确率达到87.93%,召回率为84.26%,相比于次优的基于LSTM(Long Short Term Memory)框架提升4个百分点和3个百分点。然后,研究了基于姿态估计的注意力状态检测模型。本文对姿态估计和注意力机制的相关理论进行了深入的研究,将空间注意力机制和通道注意力机制引入高分辨率多尺度并行网络,提高HRNet(High Resolution Net)网络的精度,在MS COCO(Common Objects in Context)数据集上模型准确率达到了74.9%,比次优的基线模型提升了1.5个百分点;然后基于提取的学生上肢和头部的关键点信息,分析对比五类视频分类框架的表现,选择本文提出的基于Transformer的框架,在自行采集的学生网络课堂数据集验证集上的准确率为85.14%和召回率为83.98%,比次优基于LSTM模型分别高出4个百分点和3个百分点。最后,设计了一个基于表情和姿态多维度特征的模型效果验证实验。将学生在网络课堂上的注意力状态划分为离开状态、注意力分散状态和正常状态,结合表情识别和姿态估计,对学生的课堂注意力状态进行判定,并通过对图像获取速度进行调节以改善模型的实时性。自行录制学生网络课堂数据集进行模型的小规模验证。测试实验结果显示,模型能够准确分类学生在网络课堂上的注意力状态,准确率83.6%,召回率81.7%,能较好满足网络教学的要求。
基于特征融合和注意力机制的人脸表情识别方法研究
这是一篇关于表情识别,深度学习,特征融合,注意力机制,焦点损失函数的论文, 主要内容为面部表情在人与人之间的交流中扮演着重要的角色。目前,人脸表情识别在人机交互、教学评估和交通安全等领域都得到了广泛的应用。然而,传统卷积神经网络在人脸表情识别过程中存在一定的缺陷,例如特征提取的针对性不强,以及非受控环境下表情识别的准确率不高。因此,设计一个能够提取更加全面且丰富的特征信息的网络模型是一个非常具有挑战性的任务。针对上述问题,本文设计了一种深度学习网络模型,并将其命名为基于特征融合和注意力机制的网络模型(Feature Fusion and Attention Mechanism Network,FFAM-Net)。该模型主要由Res Net18_Attention特征提取网络、局部特征提取模块、表情不确定性模块三部分组成。所提出方法的创新点具体来说:1)由于Res Net18卷积神经网络无法提取到具有鉴别性的表情特征,本文提出了一种新的Res Net18_Attention特征提取网络。该网络能够从通道和空间两个角度来提取与面部表情区域相关的融合特征,从而提升网络模型的整体性能。2)自然环境下的表情识别容易受到遮挡、姿态变化等因素的影响,仅提取面部表情的全局特征会对表情识别的效果产生一定影响。因此,本文提出了局部特征提取模块(Local Feature Extraction Module,LFEM),该模块可以提取到面部表情图像的局部特征,局部特征能够弥补全局特征的不足,进而有效地解决表情识别领域中存在的遮挡、姿态变化等问题。3)本文设计了一个新的CF_Loss损失函数,它由交叉熵损失函数(Cross-Entropy Loss)和焦点损失函数(Focal Loss)组成。焦点损失函数是在交叉熵损失函数的基础上,增加一个调节因子来降低易分类样本的权重,从而使得表情不确定性模块聚焦于难以区分的样本,最终提高FFAM-Net网络模型的整体性能。为了验证本文所提出的FFAM-Net模型的有效性,本文在两个公开的大规模静态人脸表情图像数据集RAF-DB和FERPLUS上分别进行了相关实验,实验结果表明本文提出的FFAM-Net模型能够取得较好的表情识别效果,性能总体优于基准方法和当前一些其它主流的人脸表情识别方法。
基于ZYNQ的表情识别软硬件协同设计
这是一篇关于表情识别,卷积神经网络,ZYNQ,软硬件协同设计,硬件IP的论文, 主要内容为表情识别指利用计算机提取人脸表情特征进行分类,从而推测人的情绪;卷积神经网络通过将特征提取与特征分类相结合,在图像识别领域中表现出了良好的性能,可以对人脸表情进行有效识别。本文采用软硬件协同的方式,利用Xilinx公司的ZYNQ芯片对卷积神经网络进行硬件加速,实现人脸表情的高效识别。根据FPGA和ARM的特点划分软硬件模块,在FPGA部分设计卷积神经网络硬件加速IP,包括卷积运算模块、池化运算模块和数据处理模块;在ARM部分搭建Linux嵌入式平台并设计表情识别软硬件协同程序,从而充分发挥FPGA和ARM各自的优势。卷积神经网络硬件IP的卷积运算模块采用Winograd快速卷积算法,通过对数据进行变换处理以降低计算复杂度,减少乘法器的资源占用;池化运算模块可根据网络结构选择均值池化或者最大池化,通过并行展开的计算方式加速运算。本文采用乒乓流水对硬件IP进行优化,设计双缓存结构并改进模块的执行时序,减少了硬件IP的总体运行时间。根据卷积运算的并行特点,设计了循环分块运算,并通过资源分析设置最佳的片上循环分块参数。利用数据处理模块设置的中间缓存,设计了多通道数据传输,提高了卷积神经网络运算速度。ARM部分通过生成BOOT.bin、编译Linux内核和修改设备树等方式搭建基于Linux的嵌入式开发平台;软硬件协同程序包括三个部分,首先对输入图片进行人脸检测、特征图尺寸调整、数据类型转换等预处理,然后设计硬件IP驱动程序,使卷积神经网络硬件IP可根据训练好的网络模型进行相应运算,最后利用分类函数计算表情识别概率,将结果通过设计的Qt图形界面进行显示。本文首先在PC平台基于TensorFlow框架搭建表情识别卷积神经网络,提取并处理训练完成的网络参数;其次,在Zedboard开发板上,利用得到的网络模型,以软硬件协同设计的方式实现表情识别系统;最后,对表情识别结果的准确性和软硬件协同设计的耗时等进行测试。实验结果表明,本文的表情识别系统在保证准确率的同时,具有速度快、功耗低的优点。
基于特征融合和注意力机制的人脸表情识别方法研究
这是一篇关于表情识别,深度学习,特征融合,注意力机制,焦点损失函数的论文, 主要内容为面部表情在人与人之间的交流中扮演着重要的角色。目前,人脸表情识别在人机交互、教学评估和交通安全等领域都得到了广泛的应用。然而,传统卷积神经网络在人脸表情识别过程中存在一定的缺陷,例如特征提取的针对性不强,以及非受控环境下表情识别的准确率不高。因此,设计一个能够提取更加全面且丰富的特征信息的网络模型是一个非常具有挑战性的任务。针对上述问题,本文设计了一种深度学习网络模型,并将其命名为基于特征融合和注意力机制的网络模型(Feature Fusion and Attention Mechanism Network,FFAM-Net)。该模型主要由Res Net18_Attention特征提取网络、局部特征提取模块、表情不确定性模块三部分组成。所提出方法的创新点具体来说:1)由于Res Net18卷积神经网络无法提取到具有鉴别性的表情特征,本文提出了一种新的Res Net18_Attention特征提取网络。该网络能够从通道和空间两个角度来提取与面部表情区域相关的融合特征,从而提升网络模型的整体性能。2)自然环境下的表情识别容易受到遮挡、姿态变化等因素的影响,仅提取面部表情的全局特征会对表情识别的效果产生一定影响。因此,本文提出了局部特征提取模块(Local Feature Extraction Module,LFEM),该模块可以提取到面部表情图像的局部特征,局部特征能够弥补全局特征的不足,进而有效地解决表情识别领域中存在的遮挡、姿态变化等问题。3)本文设计了一个新的CF_Loss损失函数,它由交叉熵损失函数(Cross-Entropy Loss)和焦点损失函数(Focal Loss)组成。焦点损失函数是在交叉熵损失函数的基础上,增加一个调节因子来降低易分类样本的权重,从而使得表情不确定性模块聚焦于难以区分的样本,最终提高FFAM-Net网络模型的整体性能。为了验证本文所提出的FFAM-Net模型的有效性,本文在两个公开的大规模静态人脸表情图像数据集RAF-DB和FERPLUS上分别进行了相关实验,实验结果表明本文提出的FFAM-Net模型能够取得较好的表情识别效果,性能总体优于基准方法和当前一些其它主流的人脸表情识别方法。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码客栈 ,原文地址:https://bishedaima.com/lunwen/46195.html