失语症严重程度评估算法研究
这是一篇关于失语症,语音信号处理,多任务学习,注意力机制,特征选择的论文, 主要内容为失语症是由大脑神经中枢损伤、大脑皮质语言功能区病变,所引起的语言交流能力障碍。通常由脑卒中、帕金森综合症、阿尔茨海默症等神经系统疾病引起。失语症会损害一个人理解和形成语言的能力,给日常生活中的听、说、读、写等交流方式带来严重影响。目前失语症的诊断和评估主要依赖于语言病理学家根据自身经验并结合失语症评估量表进行,这种评估方法过程繁琐,患者有时无法正常配合,其评估结果具有很大的主观性和不确定性。因此,基于深度学习技术的自动化失语症评估算法具有很好的应用价值和发展前景。当前基于语音频谱图和深度卷积神经网络的评估算法被视为主流方法,但这些方法还存在着一些问题:1)现有的频谱图提取方式不能很好地表征失语症音频间的动态变化;2)现有网络提取的特征判别性不足,导致预测结果存在较大的误差;3)语音信号中含有与失语症不相关的音频帧,对评估造成干扰;4)与失语症相关的传统声学特征没有得到合理地利用。针对以上问题展开失语症评估算法的研究,主要创新如下:(1)针对现有的频谱图提取方式对失语症表征性不足问题,本文提出了三通道的Mel频谱图,通过增加二维Mel频谱图的一阶差分和二阶差分来表征不同帧之间的动态变化,组成的三通道数据包含了更多与失语症相关的信息。并针对现有网络提取特征判别性不足的问题,提出了一种基于多任务神经网络的失语症评估算法,添加的失语症严重程度等级辅助分类任务为模型提供了额外的约束,使其获得更好的特征表示学习能力,有效地提高严重程度评分回归任务的精度。采用的骨干网络由多任务Res Net和多任务LSTM构成,这种体系结构能够很好地学习频谱图中与失语症相关的时、空、频率和能量差异。最后,通过比较不同通道数的Mel频谱图、多任务损失函数的参数设置以及不同骨干网络的选择实验来验证所提算法的有效性。(2)针对语音信号中存在不相关的音频帧以及忽略了利用传统声学特征的问题,提出了基于时空注意力机制与声学特征融合的失语症评估算法。采用的时空注意力网络能够整合时空信息并生成注意力权重,使网络有针对性地学习与失语症相关的帧,排除不相关信息的干扰。之后从原始音频中提取了88维与失语症相关的声学特征,并通过L1正则化特征选择算法将时空注意力特征与声学特征融合,融合后的特征之间形成互补优势,进一步提升了对失语症的表征能力,能充分反应不同严重程度样本之间的差异。最后,通过不同的时空特征聚合方式、不同的特征选择算法的消融实验以及与现有的不同失语症评估网络的对比实验验证了所提算法的性能。(3)开发了失语症自动评估系统,以PyQt中的GUI图形工具为依托,将本文提出的基于多任务神经网络的失语症评估算法应用于该评估系统,系统具有音频采集、音频导入、特征提取和评分功能,能够辅助医生实现患者失语症的自动评估,有效提高评估效率。
基于语音特征的“路怒”情绪诊断系统
这是一篇关于愤怒情绪识别,路怒症,语音信号处理,深度学习,噪声环境,特征融合,Fisher比准则的论文, 主要内容为随着中国人民生活水平的改善,机动车驾驶者数量呈现增长,交通事故的发生频率也逐年攀升。发生交通事故的一大重要原因为“路怒症”,如何识别“路怒症”是急需解决的重要难题。“路怒”识别区别于传统情绪识别,待识别声音信号包含了复杂交通环境噪声,识别目标为单一愤怒情绪。本文的工作内容和创新点如下:(1)提取较好区分情绪、表征愤怒和提高系统鲁棒性的语音特征。采用梅尔频率倒谱系数(MFCC)作为特征,由于MFCC无法较好表征具有高频特征的愤怒语音信号,引入逆梅尔频率倒谱系数(IMFCC)。针对特征融合,采用MFCC和IMFCC拼接,得到拼接MFCC。利用梅尔滤波器组和逆梅尔滤波器组进行组合,对于不同频率语音信号进行特征提取,得到混合MFCC。针对特征鲁棒性差的问题,引入Gammatone倒谱系数(GFCC)。由于特征融合存在冗余,利用Fisher比计算各维度特征对愤怒情绪识别贡献度的高低,排序选择构建12阶F-MFCC和18阶F-MGCC。通过实验,在纯净语音中,F-MGCC相较其他单一特征和融合特征愤怒情绪识别准确率提升7.53%。由于真实环境中语音信噪比未知,通过统计纯净、0d B、-10d B、-20d B信噪比的语音下MFCC、IMFCC和GFCC的Fisher比分布,重构20阶泛化F-MGCC,使用单一信噪比语音信号进行训练,对于其他信噪比的语音推演,平均达到87.25%的愤怒情绪识别准确率。(2)提出卷积神经网络(CNN)+多头自注意力准则双向长短时间记忆网络(Multi-Head Self-Attention Bi-LSTM)融合决策模型实现愤怒情绪识别。利用CNN来获取语音特征参数中的空间维度的高级特征向量。利用Bi-LSTM结合MultiHead Self-Attention,获取语音特征参数中的时间维度的高级特征向量。将MultiHead Self-Attention Bi-LSTM的输出和CNN的输出拼接,经过全连接层,最后利用Softmax函数完成愤怒识别分类任务,分别在RAVDESS和CASIA数据集上得到了96.27%和97.87%的准确率。(3)设计并实现基于语音特征的“路怒”情绪诊断系统,基于本文提出的特征和算法模型,使用My SQL数据库,采用SSM(Spring+Spring MVC+My Batis)和小程序等研发框架进行研发,系统实现语音数据的采集,愤怒情绪识别,“路怒”情绪频次和单条语音“路怒”可视化分析,实现利用“路怒”信息对于驾驶行为进行辅助。
基于卷积神经网络的终端语音情感识别方法研究
这是一篇关于语音情感识别,语音信号处理,全卷积网络,多尺度特征融合,全局感知的论文, 主要内容为情感是人与人交往和交流时的基本要素之一,情感的一个重要体现即为人的情感状态。人的情感状态在人类和各方的互动中发挥着重要的作用,会明显影响注意力、解决问题的能力和决策能力,也会极大的影响工作、生活、娱乐,以及与计算机和应用程序交互时所选择的策略。在人机交互的研究道路中,语音情感识别已成为高级语音处理系统中不可获取的组成部分。本文旨在研究基于卷积神经网络的移动终端语音情感识别方法,并以围绕语音情感识别算法,构建语音情感识别系统,利用语音中的信息对于情感进行判断。本文的主要研究内容及创新点包括:●构建用于语音情感识别的高效且轻量级的全卷积神经网络Light-FCN。设置分层深度学习模型来进行自动化的特征提取,通过三个并行卷积神经网络从梅尔倒谱系数能量图中提取具有不同属性的特征,这有助于深度卷积块提取到高级特征,同时确保了足够的可分离性。将提取的特征连接起来反馈到深度卷积神经网络中,被用于对语音信号段的情感进行分类,最后通过归一化指数函数得到最终的预测结果,完成最终的语音情感识别。与现有的模型相比,Light-FCN网络具有更小的尺寸,在多个数据集上实现了相同或者更高的识别性能。●研究基于多尺度特征表示和全局特征融合的语音情感识别方法,学习具有全局感知融合模块的多尺度特征表示,以此来表征情感信息。多尺度特征表示模块使用恒等映射的多层残差网络,利用了多个不同尺度的卷积核迭代,来学习不同尺度的特征表示。其次使用一个全局感知融合模块来在全局上获取最重要的信息。使用IEMOCAP数据库来对模型效果进行验证,与先进的方法相比,该网络提高了所列出指标的性能,证明了全局感知融合和多尺度特征表示的有效性。●基于本文提出的语音情感识别算法模型,设计交互式语音情感在线识别系统,验证了所设计模型的可实用性。交互式语音情感在线识别网页在完成网站后端功能的开发时,使用了Spring MVC框架,同时在完成前端页面的设计时,采用了Java Script、CSS、HTML语言。网站可以实时监测说话人所处于何种情感状态,同时将说话人的语音信息记录下来,存储到数据库中,以便日后建立更加完整的语音情感数据集。
失语症严重程度评估算法研究
这是一篇关于失语症,语音信号处理,多任务学习,注意力机制,特征选择的论文, 主要内容为失语症是由大脑神经中枢损伤、大脑皮质语言功能区病变,所引起的语言交流能力障碍。通常由脑卒中、帕金森综合症、阿尔茨海默症等神经系统疾病引起。失语症会损害一个人理解和形成语言的能力,给日常生活中的听、说、读、写等交流方式带来严重影响。目前失语症的诊断和评估主要依赖于语言病理学家根据自身经验并结合失语症评估量表进行,这种评估方法过程繁琐,患者有时无法正常配合,其评估结果具有很大的主观性和不确定性。因此,基于深度学习技术的自动化失语症评估算法具有很好的应用价值和发展前景。当前基于语音频谱图和深度卷积神经网络的评估算法被视为主流方法,但这些方法还存在着一些问题:1)现有的频谱图提取方式不能很好地表征失语症音频间的动态变化;2)现有网络提取的特征判别性不足,导致预测结果存在较大的误差;3)语音信号中含有与失语症不相关的音频帧,对评估造成干扰;4)与失语症相关的传统声学特征没有得到合理地利用。针对以上问题展开失语症评估算法的研究,主要创新如下:(1)针对现有的频谱图提取方式对失语症表征性不足问题,本文提出了三通道的Mel频谱图,通过增加二维Mel频谱图的一阶差分和二阶差分来表征不同帧之间的动态变化,组成的三通道数据包含了更多与失语症相关的信息。并针对现有网络提取特征判别性不足的问题,提出了一种基于多任务神经网络的失语症评估算法,添加的失语症严重程度等级辅助分类任务为模型提供了额外的约束,使其获得更好的特征表示学习能力,有效地提高严重程度评分回归任务的精度。采用的骨干网络由多任务Res Net和多任务LSTM构成,这种体系结构能够很好地学习频谱图中与失语症相关的时、空、频率和能量差异。最后,通过比较不同通道数的Mel频谱图、多任务损失函数的参数设置以及不同骨干网络的选择实验来验证所提算法的有效性。(2)针对语音信号中存在不相关的音频帧以及忽略了利用传统声学特征的问题,提出了基于时空注意力机制与声学特征融合的失语症评估算法。采用的时空注意力网络能够整合时空信息并生成注意力权重,使网络有针对性地学习与失语症相关的帧,排除不相关信息的干扰。之后从原始音频中提取了88维与失语症相关的声学特征,并通过L1正则化特征选择算法将时空注意力特征与声学特征融合,融合后的特征之间形成互补优势,进一步提升了对失语症的表征能力,能充分反应不同严重程度样本之间的差异。最后,通过不同的时空特征聚合方式、不同的特征选择算法的消融实验以及与现有的不同失语症评估网络的对比实验验证了所提算法的性能。(3)开发了失语症自动评估系统,以PyQt中的GUI图形工具为依托,将本文提出的基于多任务神经网络的失语症评估算法应用于该评估系统,系统具有音频采集、音频导入、特征提取和评分功能,能够辅助医生实现患者失语症的自动评估,有效提高评估效率。
基于卷积神经网络的终端语音情感识别方法研究
这是一篇关于语音情感识别,语音信号处理,全卷积网络,多尺度特征融合,全局感知的论文, 主要内容为情感是人与人交往和交流时的基本要素之一,情感的一个重要体现即为人的情感状态。人的情感状态在人类和各方的互动中发挥着重要的作用,会明显影响注意力、解决问题的能力和决策能力,也会极大的影响工作、生活、娱乐,以及与计算机和应用程序交互时所选择的策略。在人机交互的研究道路中,语音情感识别已成为高级语音处理系统中不可获取的组成部分。本文旨在研究基于卷积神经网络的移动终端语音情感识别方法,并以围绕语音情感识别算法,构建语音情感识别系统,利用语音中的信息对于情感进行判断。本文的主要研究内容及创新点包括:●构建用于语音情感识别的高效且轻量级的全卷积神经网络Light-FCN。设置分层深度学习模型来进行自动化的特征提取,通过三个并行卷积神经网络从梅尔倒谱系数能量图中提取具有不同属性的特征,这有助于深度卷积块提取到高级特征,同时确保了足够的可分离性。将提取的特征连接起来反馈到深度卷积神经网络中,被用于对语音信号段的情感进行分类,最后通过归一化指数函数得到最终的预测结果,完成最终的语音情感识别。与现有的模型相比,Light-FCN网络具有更小的尺寸,在多个数据集上实现了相同或者更高的识别性能。●研究基于多尺度特征表示和全局特征融合的语音情感识别方法,学习具有全局感知融合模块的多尺度特征表示,以此来表征情感信息。多尺度特征表示模块使用恒等映射的多层残差网络,利用了多个不同尺度的卷积核迭代,来学习不同尺度的特征表示。其次使用一个全局感知融合模块来在全局上获取最重要的信息。使用IEMOCAP数据库来对模型效果进行验证,与先进的方法相比,该网络提高了所列出指标的性能,证明了全局感知融合和多尺度特征表示的有效性。●基于本文提出的语音情感识别算法模型,设计交互式语音情感在线识别系统,验证了所设计模型的可实用性。交互式语音情感在线识别网页在完成网站后端功能的开发时,使用了Spring MVC框架,同时在完成前端页面的设计时,采用了Java Script、CSS、HTML语言。网站可以实时监测说话人所处于何种情感状态,同时将说话人的语音信息记录下来,存储到数据库中,以便日后建立更加完整的语音情感数据集。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码项目助手 ,原文地址:https://bishedaima.com/lunwen/53224.html