基于多头注意力机制的门控网络的语音增强方法研究
这是一篇关于语音增强,多头注意力,多尺度判别器,门控控制网络的论文, 主要内容为实际通信过程中,交流频率最高的方式是语音交流,而现实生活中极易受到周围环境噪声的干扰,从而影响语音交流信号的质量、沟通的效率。为此,就需要采用语音增强技术来提高语音信号的质量,达到去除环境噪声,提高语音信号的质量的目的。语音增强的具体任务其实就是增加语音信号的信噪比,使得其更被利于听清和理解。近年来,随着深度学习的发展,由于神经网络有处理复杂的非线性关系的能力,同时语音信号是一种连续时间和连续幅度的非平稳信号,所以人们开始使用深度神经网络运用到语音增强的领域。本文主要研究内容如下:(1)提出了一种基于多头注意力机制的门控网络模型。针对传统的卷积循环神经网络中的长期依赖问题。本文主要基于门控网络(GCN)架构,结合Transformer多头注意力机制,并在原生Transformer的基础上改进残差结果,缓解Post-LN结构造成的梯度消失现象,同时在模型中间层分别在时间和频率维度上使用多头注意力机制,提出了改进后的门控循环单元(GRU),在一定程度上解决门控网络没有很好的考虑每个时间片的重要信息的问题,同时减少模型的计算量。(2)提出GCN作为生成器的一部分,并使用多尺度判别器与LSTM结合来共同构建GAN模型。门控网络可以通过控制GAN生成器的输入,使生成器能够生成更加多样化的语音信号,从而提高语音信号的多样性和稳定性。同时门控网络可以自适应地选择输入GAN生成器的特征,因此可以减少训练时间和数据量,从而加快训练速度。由于本文使用了5个信噪比来预处理数据集,而使用多尺度判别器可以更全面地理解输入语音的特征,并更准确地区分不同信噪比的语音信号,从而提高语音增强的性能。(3)受U-Net在计算机视觉中的应用启发,本文提出了一种优化的网络模型GCU-N,其编码器和解码器采用两个四层U-Net单元来捕获动态长期上下文信息,其中间层仍然使用本文提出的GCN模型的相同结构。
嘈杂环境多说话人语音分离及识别技术研究
这是一篇关于语音增强,语音分离,语音识别,深度学习的论文, 主要内容为语音识别就是把说话人的声音转化为符合语法规则的文本信息。高准确性和鲁棒性的语音识别是构建智能机器人听觉系统、实现人机交互的重要自然语言处理技术。近年来深度学习的蓬勃发展显著提升了语音识别的准确性和鲁棒性,但在嘈杂环境多说话人场景下,声音信号存在噪声衰减、混叠干扰等降质现象,因此,研究嘈杂环境下语音信号增强、多说话人高准确性语音分离和语音识别等关键技术,对推动语音识别技术向满足实际应用场景需要的纵深方向发展意义突出。本文的研究内容如下:(1)嘈杂环境时频域感知复频谱子-全频带语音增强技术研究。针对嘈杂环境声音信号易被噪声降质、子-全频带模型既能有效捕捉声音信号的全频带上下文频率信息又能获取信号平稳性的局部频谱信息但缺乏语音信号时频域能量分布表示能力的问题,提出将能够有效捕捉语音信号分布信息的时频感知模块融入到复频谱子-全频带模型中,从而构建出一种新的时频域感知复频谱子-全频带语音增强模型。对比实验结果表明,时频域感知复频谱子-全频带语音增强模型具有明显的语音增强性能。(2)卷积增强外部注意力时域语音分离技术研究。借鉴DANet的双路径扩展外部注意力形成空间和通道双路外部注意力,并结合卷积增强模块、卷积位置编码模块提出一种新的卷积增强外部注意力模块。在此基础上,将卷积增强外部注意力模块应用于Tas Net的编码器-解码器结构中实现对语音信号的建模,从而提出了一种卷积增强外部注意力的时域语音分离模型(Ex Con Net)。对比实验表明,Ex Con Net模型具有较小的参数量和更好的多说话人语音分离效果。(3)交互式特征融合的CTC/Attention语音识别技术研究。提出改进SA-Conv共享编码器的ACmix-CTC/Attention语音识别模型,提高了干净语音识别的性能;针对嘈杂环境语音识别的场景,采用交互式特征融合的方式对CTC/Attention语音识别模型及语音增强模块进行联合训练来提高含噪语音识别的鲁棒性和准确性。干净数据集上的实验表明所提语音识别模型表现出更低的词错误率;含噪数据集上的测试也表明交互式特征融合的CTC/Attention语音识别对于嘈杂环境语音识别的有效性。
基于深度神经网络的单通道语音增强方法研究
这是一篇关于语音增强,相位感知,多任务学习,动态声学补偿,自适应焦点训练的论文, 主要内容为语音增强(Speech enhancement,SE),是目前智能语音领域的研究热点之一,其是实时通信,智能家居,可穿戴医疗设备等应用领域中的关键性技术。随着深度学习技术的创新和发展,基于深度神经网络的语音增强技术由于其卓越的性能,逐渐取代传统的基于信号处理的语音增强技术,成为该领域研究者们的研究重点,同时被广泛地应用。虽然语音增强技术近年来有了重大的进展与明显的进步,然而以下问题仍在很大程度上限制了语音增强系统的性能和其在现实场景中的应用:(1)在实时通信等许多应用任务中,对语音增强系统的实时性有很高的要求,这使得系统的参数量和延迟有了很严苛的限制,如何兼顾实时性和语音增强性能,设计出一个低延迟,高性能的语音增强系统是目前的挑战之一;(2)过度抑制是语音增强领域常见的现象,这会给语音带来不可逆的失真,严重的过度抑制会使得语音的可懂度下降,这显然与语音增强的初衷相悖,如何改善过度抑制现象也是目前语音增强领域的热点之一;(3)无论是传统的语音增强方法还是基于深度神经网络的语音增强技术,都无法准确地去除信号中可能包含的干扰说话人语音,这限制了语音增强系统在现实生活场景中的应用。如何做到只保留目标说话人语音,去除干扰说话人语音和噪声,实现个性化的语音增强(Personalized speech enhancement,PSE)近年来逐渐受到了关注。然而关于该任务的研究目前仍相对较少,其中存在的问题与挑战也仍待发现与解决。本论文针对以上语音增强领域中的难点,进行深入研究,主要包括以下创新点:(1)针对单通道实时语音增强任务,复现Percep Net基线系统,并从模型和声学特征入手,提出一种相位感知的结构,在不影响系统实时性的前提下,提升语音增强性能。(2)基于Percep Net系统,通过提出一种新的多任务学习策略和基于信噪比估计的后处理技术,改善单通道实时语音增强任务中的过度抑制问题。(3)针对个性化语音增强任务,以s DPCCN为基线系统,提出一种动态声学补偿方法来改善测试语音和注册语音声学环境不匹配的问题,并通过自适应焦点训练机制提升困难样本性能,提高了系统性能与鲁棒性。本文使用多个已开源数据集进行实验,其中选用Mc Gill TSP speech database,NTT Multi-Lingual Speech Database for Telephonometry和VCTK数据集验证所提出的相位感知结构,多任务学习策略以及基于信噪比的后处理技术的有效性;选用4th Deep Noise Suppression(DNS)Challenge track2数据集验证动态声学补偿方法和自适应焦点训练机制在单通道个性化语音增强任务中改善声学环境不匹配和困难样本问题的有效性。实验结果表明,与基线系统相比,本文所提出的创新点均可较大程度地提升系统性能与系统鲁棒性,为未来单通道实时语音增强技术以及单通道个性化语音增强技术的发展与落地提供了重要参考。
基于深度神经网络的语音增强和分离技术研究
这是一篇关于语音增强,语音分离,神经网络,波束形成,音视频,多通道的论文, 主要内容为近年来基于深度学习的声学和语言建模技术极大的提升了语音识别性能。然而在真实环境下,受到远场信号衰减、噪声混响、说话人重叠等复杂声学环境的影响,语音识别的性能会显著的下降。语音增强和语音分离技术是解决噪声和说话人干扰的声学前端技术,旨在提升语音信号质量,在人耳听觉感知层面或者识别率层面提升语音交互系统的整体表现。本文以语音增强和分离任务为核心,分别对基于时频掩码的自适应波束形成技术、单通道时域音视频多模态语音分离技术、端到端的多通道在线语音分离技术进行了研究。1.基于时频掩码的自适应波束形成技术。自适应波束形成技术是经典的多通道语音增强算法,通过在远场噪声环境下对干扰方向上的噪声进行有效的抑制来提升语音质量。传统的自适应波束形成技术,以MVDR为例,往往需要依赖声源定位算法提供一个波达方向,且难以准确的估计声源和噪声的协方差矩阵,因此往往在识别率和信噪比上的提升有限。基于时频掩码的自适应波束形成技术与麦克风阵列结构无关,它通过预计声源的时频掩码来估计导向矢量和协方差矩阵,结果更加准确。本文首先在CHi ME4数据上验证了该方法在语音增强任务中的有效性,并在CHi ME5多通道语音分离竞赛中,提出一种基于ivector的指导特征,对分离模型进行说话人启发训练,估计目标说话人时频掩码的方法。在仅使用单个分离模型和基线声学模型的条件下,本文提出的方案在开发集的识别率上获得了10%的WER绝对下降。进一步使用本文优化的声学模型将WER绝对下降扩展到20%。2.单通道时域音视频多模态语音分离。在语音增强/分离任务中,时域上的模型往往可以得到比频域更好的结果,因为其不需要显式的解决相位增强的问题。视觉特征相比说话人信息,方位特征等语音特征,具有噪声无关、信息丰富等优点,是一种比较强的有偏特征。因此使用视觉信息作为先验的音视频融合模型是一种常见的目标说话人分离方案。前人提出的音视频融合方法使用频域的音频建模方法和基于人脸或者关键词级别的视频嵌入表示特征。频域的音频建模方案需要额外的模块解决相位问题,而使用人脸或者词作为特征提取器训练目标得到的视频特征较为粗糙,且训练目标和分离任务的耦合度较低。本文提出使用音素标签训练唇部特征提取器和使用时域样本的音频建模方法,可以更好的表示说话人内容信息以及解决相位增强问题。在LRS2上仿真的双/三说话人训练集上进行多说话人训练之后,相比最先进的时域模型Conv-Tas Net和对应的频域音视频分离方案,在测试集上获得了3~4个d B的信噪比绝对提升。3.端到端的多通道在线语音分离技术。针对会议转录场景设计的分离方案在实际部署中需要满足低延迟和提升识别率的需求。基于神经网络的自适应波束形成技术由于延迟高,在较低延迟的条件下比较难拿到理想的识别率提升。因此微软先前提出的解混-定位-提取(ULE)方案,采用不会引入系统延迟的固定波束形成器替代自适应波束。由于固定波束的干扰消除能力较差,且需要依赖于定位模块进行波束选择,所以ULE系统设计了提取网络用于进一步消除选取波束上的干扰说话人,而解混和定位模块则用于估计说话人方位。本文基于该方案,进一步的提出了一种端到端训练的多通道模型,采用基于注意力机制的波束选择方法,达到了解混、定位、提取三个网络在训练阶段联合优化的目标。在使用实录数据混合的双说话人测试集上,该模型可以在离线环境下获得和基于时频掩码的MVDR和ULE方案相近的结果,在线模式中相比ULE可以取得12.47%和22.40%的WER相对降低。
基于多头注意力机制的门控网络的语音增强方法研究
这是一篇关于语音增强,多头注意力,多尺度判别器,门控控制网络的论文, 主要内容为实际通信过程中,交流频率最高的方式是语音交流,而现实生活中极易受到周围环境噪声的干扰,从而影响语音交流信号的质量、沟通的效率。为此,就需要采用语音增强技术来提高语音信号的质量,达到去除环境噪声,提高语音信号的质量的目的。语音增强的具体任务其实就是增加语音信号的信噪比,使得其更被利于听清和理解。近年来,随着深度学习的发展,由于神经网络有处理复杂的非线性关系的能力,同时语音信号是一种连续时间和连续幅度的非平稳信号,所以人们开始使用深度神经网络运用到语音增强的领域。本文主要研究内容如下:(1)提出了一种基于多头注意力机制的门控网络模型。针对传统的卷积循环神经网络中的长期依赖问题。本文主要基于门控网络(GCN)架构,结合Transformer多头注意力机制,并在原生Transformer的基础上改进残差结果,缓解Post-LN结构造成的梯度消失现象,同时在模型中间层分别在时间和频率维度上使用多头注意力机制,提出了改进后的门控循环单元(GRU),在一定程度上解决门控网络没有很好的考虑每个时间片的重要信息的问题,同时减少模型的计算量。(2)提出GCN作为生成器的一部分,并使用多尺度判别器与LSTM结合来共同构建GAN模型。门控网络可以通过控制GAN生成器的输入,使生成器能够生成更加多样化的语音信号,从而提高语音信号的多样性和稳定性。同时门控网络可以自适应地选择输入GAN生成器的特征,因此可以减少训练时间和数据量,从而加快训练速度。由于本文使用了5个信噪比来预处理数据集,而使用多尺度判别器可以更全面地理解输入语音的特征,并更准确地区分不同信噪比的语音信号,从而提高语音增强的性能。(3)受U-Net在计算机视觉中的应用启发,本文提出了一种优化的网络模型GCU-N,其编码器和解码器采用两个四层U-Net单元来捕获动态长期上下文信息,其中间层仍然使用本文提出的GCN模型的相同结构。
基于深度学习的VHF语音智能处理技术研究
这是一篇关于甚高频,深度学习,语音增强,文本分析的论文, 主要内容为甚高频(Very high frequency,VHF)作为海上移动无线电通信最重要的手段之一,是船舶之间以及船舶与VTS(Vessel Transportation Service,VTS)中心之间最主要的通信方式。然而,由于海上VHF通信语音存在噪声大、不清晰和口音杂等原因,导致了通信意图识别困难和对话效率低下等问题,严重影响船舶航行的安全性和VTS管理的高效性。针对这一问题,本文进行VHF语音智能处理算法研究,利用最新深度学习方法构建VHF语音增强、识别和文本分析模型,提升VHF通信质量、效率和自动化处理水平。归纳起来,本文的工作主要包括:(1)根据分析航海领域VHF通信面临的主要问题,结合目前最先进的语音和自然语言处理技术,提出完整的VHF语音智能处理方案。(2)针对VHF语音增强问题,利用采集的真实场景VHF语音,以及在干净公开语音数据集上加入从真实场景VHF语音中提取的噪音,构建VHF语音数据集;针对VHF语音识别和文本分析问题,通过标注相匹配的VHF语音和文本,以及标注文本中的关键实体,构建VHF文本分析数据集。(3)提出基于Transformer的VHF语音增强模型,该模型符合航海领域VHF语音特点,能够同时降低长期噪声和短期噪声,在VHF语音测试集上的语音质量感知评估分数达到了2.31,短期客观可懂度达到了0.78,优于包括SEGAN、Wave-U-Net和TSTNN等其他语音增强模型。(4)基于端到端语音识别框架We Net,利用Conformer语音识别模块实现VHF语音的识别,获取VHF对话文本。在本文构建的VHF数据集上训练后,该模型在测试集上的错误率为15.73%,优于Transformer模型的15.96%。(5)提出基于预训练语言模型BERT和双向循环神经网络Bi LSTM的实体关系联合抽取模型,实现对VHF对话文本的分析,以三元组形式提取文本重点信息,以提高VHF语音处理的准确性和效率。该模型本文构建的VHF文本数据集上进行训练,评价指标F1值达到83.6%,准确率达到84.3%,召回率达到82.3%,优于ETL Span、TDEER和Bi RTE等其他主流实体关系联合抽取模型。本文运用最新的深度学习语音和自然语音处理方法,研究并构建航海领域VHF语音智能处理系列模型,达到了良好的效果,是人工智能新技术在航海领域应用的有益探索,具有一定理论意义,同时对于提高船舶间语音交互和VTS中心通信管理的智能化水平也具有较好的实际应用价值。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设助手 ,原文地址:https://bishedaima.com/lunwen/54212.html