给大家推荐5篇关于语音分离的计算机专业论文

今天分享的是关于语音分离的5篇计算机毕业论文范文, 如果你的论文涉及到语音分离等主题,本文能够帮助到你

基于不确定性度量的单通道语音分离算法研究

这是一篇关于语音分离,不确定性度量,噪声鲁棒,神经网络的论文, 主要内容为单通道语音分离(Single Channel Speech Separation,SCSS)是指在一维混合说话人信号数据中分离出多个说话人语音信号的过程,因为单个麦克风具有价格低廉、容易部署、应用范围更广的特点,所以单通道语音分离技术具有广泛的使用价值。在现实应用中,现有的单通道语音分离技术往往容易受到未知噪声的干扰,出现泛化性能严重退化的问题。针对上述问题,本文基于卷积时域语音分离网络,引入了不确定性度量方法构建分离结果信噪比估计子网,并通过自适应调频网络降低模型的不确定性,显著地提高了语音分离模型在面对包含未知噪声的混合语音信号时的分离性能。本文的主要工作内容和贡献包括以下三个方面:(1)本文研究了语音信号产生的现实原理和建模单通道混合语音的过程,通过语音公开数据集Libri Speech的干净语音数据和噪声公开数据集Noise X和Nonspeech的数据融合得到了13000条在不同噪声环境下的混合语音信号数据,为后续的模型训练提供数据支撑。分析总结了目前单通道语音分离领域中的特征提取方法及目前应用较广且效果较好的单通道语音分离模型。归纳了目前在单通道语音分离领域中常用的分离语音质量评价指标。(2)针对单通道语音分离模型未知噪声环境下容易出现泛化能力严重下降的问题,本文提出基于自适应调频网络的单通道语音分离方法(Single-channel speech separation method based on adaptive frequency modulation network,SSM-FM),该方法以时域音频分离网络为基础,通过测试信号的尺度不变信噪比与训练信号的尺度不变信噪比差距来度量认知不确定性,当测试信号的不确定性超过阈值要求,通过自适应调频网络对测试信号进行频域调整,减小训练与测试噪声在特征空间的差距,降低模型的认知不确定性。在公开数据集上的13000条混合数据的实验表明,相比于单独的Conv-Tasnet网络,将尺度不变信噪比指标从2.83d B提升至4.63d B,增幅达到63.60%;相比于增加了Soft-Mask不确定性度量机制的Conv-Tasnet网络,将尺度不变信噪比指标从3.41d B提升至4.63d B,增幅达到35.78%。(3)针对现有的不确定性度量方法会严重增加模型平均分离时间从而降低语音分离模型的分离实时性问题,提出了一种基于分离结果信噪比估计与自适应调频网络的单通道语音分离方法(Single channel speech separation method based on separate SNR regression estimation and adaptive frequency modulation network,SSM-REFM),该方法通过构建分离结果信噪比估计子网,替代SSM-FM方法中输入端和调频端的语音分离网络,这样的结构能够直接从混合语音信号中预估分离结果信噪比,而不需要将混合语音信号完全分离后再计算分离结果信噪比,从而缩短语音分离时间。在公开数据集上的13000条混合数据的实验表明,SSM-REFM方法相比于SSM-FM方法,在不降低尺度不变信噪比指标和短时语音可懂度指标的前提下,将单条含噪声的混合语音信号分离时间缩减了62.72%。

基于深度神经网络的语音增强和分离技术研究

这是一篇关于语音增强,语音分离,神经网络,波束形成,音视频,多通道的论文, 主要内容为近年来基于深度学习的声学和语言建模技术极大的提升了语音识别性能。然而在真实环境下,受到远场信号衰减、噪声混响、说话人重叠等复杂声学环境的影响,语音识别的性能会显著的下降。语音增强和语音分离技术是解决噪声和说话人干扰的声学前端技术,旨在提升语音信号质量,在人耳听觉感知层面或者识别率层面提升语音交互系统的整体表现。本文以语音增强和分离任务为核心,分别对基于时频掩码的自适应波束形成技术、单通道时域音视频多模态语音分离技术、端到端的多通道在线语音分离技术进行了研究。1.基于时频掩码的自适应波束形成技术。自适应波束形成技术是经典的多通道语音增强算法,通过在远场噪声环境下对干扰方向上的噪声进行有效的抑制来提升语音质量。传统的自适应波束形成技术,以MVDR为例,往往需要依赖声源定位算法提供一个波达方向,且难以准确的估计声源和噪声的协方差矩阵,因此往往在识别率和信噪比上的提升有限。基于时频掩码的自适应波束形成技术与麦克风阵列结构无关,它通过预计声源的时频掩码来估计导向矢量和协方差矩阵,结果更加准确。本文首先在CHi ME4数据上验证了该方法在语音增强任务中的有效性,并在CHi ME5多通道语音分离竞赛中,提出一种基于ivector的指导特征,对分离模型进行说话人启发训练,估计目标说话人时频掩码的方法。在仅使用单个分离模型和基线声学模型的条件下,本文提出的方案在开发集的识别率上获得了10%的WER绝对下降。进一步使用本文优化的声学模型将WER绝对下降扩展到20%。2.单通道时域音视频多模态语音分离。在语音增强/分离任务中,时域上的模型往往可以得到比频域更好的结果,因为其不需要显式的解决相位增强的问题。视觉特征相比说话人信息,方位特征等语音特征,具有噪声无关、信息丰富等优点,是一种比较强的有偏特征。因此使用视觉信息作为先验的音视频融合模型是一种常见的目标说话人分离方案。前人提出的音视频融合方法使用频域的音频建模方法和基于人脸或者关键词级别的视频嵌入表示特征。频域的音频建模方案需要额外的模块解决相位问题,而使用人脸或者词作为特征提取器训练目标得到的视频特征较为粗糙,且训练目标和分离任务的耦合度较低。本文提出使用音素标签训练唇部特征提取器和使用时域样本的音频建模方法,可以更好的表示说话人内容信息以及解决相位增强问题。在LRS2上仿真的双/三说话人训练集上进行多说话人训练之后,相比最先进的时域模型Conv-Tas Net和对应的频域音视频分离方案,在测试集上获得了3～4个d B的信噪比绝对提升。3.端到端的多通道在线语音分离技术。针对会议转录场景设计的分离方案在实际部署中需要满足低延迟和提升识别率的需求。基于神经网络的自适应波束形成技术由于延迟高,在较低延迟的条件下比较难拿到理想的识别率提升。因此微软先前提出的解混-定位-提取(ULE)方案,采用不会引入系统延迟的固定波束形成器替代自适应波束。由于固定波束的干扰消除能力较差,且需要依赖于定位模块进行波束选择,所以ULE系统设计了提取网络用于进一步消除选取波束上的干扰说话人,而解混和定位模块则用于估计说话人方位。本文基于该方案,进一步的提出了一种端到端训练的多通道模型,采用基于注意力机制的波束选择方法,达到了解混、定位、提取三个网络在训练阶段联合优化的目标。在使用实录数据混合的双说话人测试集上,该模型可以在离线环境下获得和基于时频掩码的MVDR和ULE方案相近的结果,在线模式中相比ULE可以取得12.47%和22.40%的WER相对降低。

基于深度神经网络的语音增强和分离技术研究

基于局部放电信号检测的高压电气设备监控系统研究

这是一篇关于局部放电,音频识别,深度学习,语音分离,远程监控的论文, 主要内容为高压脉冲设备作为一种新型的高压电气设备,已广泛应用于工业场合。然而,超高压脉冲的产生会导致高压脉冲设备局部放电的频发,影响设备效率,甚至导致设备损坏。目前,传统的基于局部放电信号检测的高压电气设备监控系统存在成本高、实时性能差等缺点,无法直接应用于高压脉冲设备的监控。因此,本文提出了一种新的基于音频信号的局部放电检测方法,从成本和实时性监控的角度出发,对传统的高压电气设备局部放电监控系统进行了研究与改进,主要研究工作和创新点如下:(1)本文提出基于音频信号的局部放电检测。为了构建音频数据,本文采集了高压脉冲设备工作过程中发生火花放电、局部放电时的两种设备故障声音信号,然后在公开环境噪声数据集以及机械噪声数据集中收集了56种噪声信号,以两种设备故障放电声音信号以及噪声数据集,构建了含有58种声音信号的声音数据集,为后续的分析提供数据保障。(2)本文提出了一种改进的融合特征频谱提取方法。利用局部放电声音数据集,对局部放电声音信号的时频特性进行研究,并将局部放电声音时频特性与其他声音信号进行了对比,结果表明频谱图可以更好地表征局部放电声音信号。为保留更为完整的短时频谱特征,本文使用了梅尔刻度,并通过梅尔滤波器获得梅尔频谱。考虑到梅尔滤波器无法完全捕捉局部放电声音信号的高频特征,本文引入逆梅尔刻度,通过逆梅尔滤波器获得逆梅尔频谱。最后本文采用了特征融合的方法,将梅尔频谱、逆梅尔频谱进行特征融合,得到三通道的融合特征频谱,该融合特征频谱可以表征局部放电声音信号的完整特性。(3)本文采用轻量化深度学习模型对局部放电信号进行检测。分别采用了传统的机器学习算法、传统的深度学习模型、改进的轻量化深度学习模型以及神经网络架构搜索得到的轻量化模型在本文构建的梅尔频谱、逆梅尔频谱以及融合频谱特征数据集上进行局部放电声音的识别,并使用Top-1准确率以及Top-5准确率作为模型的评价指标。实验结果表明:所有的方法识别融合频谱特征时,具有更好的识别效果,在识别逆梅尔频谱特征时,表现效果最差;本文改进的深度学习轻量化模型以及神经网络架构搜索得到的轻量化模型在裁剪了大量模型参数的情况下,依旧保持着较高的识别效果,Top-1准确率相较于传统的深度学习模型仅仅降低了0.2%左右,最高准确率可以达到99.53%,但是模型的训练速度以及推理速度却得到了极大的提升,改进后的模型综合性能更佳。(4)本文针对工业环境采集到的声音数据中混杂多种信号的问题,提出了一种基于Transformer的语音分离模型。该模型引入了新型的Conformer模型,将卷积神经网络(Convolutional Neural Network,CNN)模块融合到Transformer中以提升局部信息提取能力,同时采用分段处理方案解决语音信号重叠问题,使用三个子窗口对声音帧数据进行滑窗处理。相比传统的基线模型,在Libir Css数据集、WSJ0数据集以及本文构建的数据集上,本文提出的模型都展现出较好的性能表现,即使在高信号重叠率的情况下也具有更好的语音分离效果,全局信号失真比以及全局信号干扰比分别为14.7db和19.2db,相较于BLSTM性能提升了接近50%左右,相较于传统Transformer,性能提升了接近12%左右。(5)本文提出了一种针对高压电气设备的局部放电监控系统硬件设计方案。首先,基于实际需求、成本和安全等因素进行分析,选择了Zynq-7010芯片作为主控模块FPGA控制器主控芯片,并自主设计了基于FPGA控制器的电源电路、脉冲电压驱动模块、局部放电音频检测模块、联网通讯电路以及RS232串口通信电路等模块。此外,采用S7-1200西门子PLC进行辅助控制和数据采集。最终,构建了高压电气设备局部放电监控系统的实验平台,并将其成功应用于实际的工业生产中。(6)本文设计了高压电气设备局部放电监控系统的软件,通过对主控模块中FPGA控制器各个硬件电路的软件设计,实现了局部放电跟踪控制软件,以降低局部放电对高压电气设备工作效率的影响。为了满足现场控制与远程控制的需求,在本地机房中搭建了LNMP服务器以及深度学习服务器,并成功配置了相应的环境。在工业现场,利用工控屏实现了人机交互界面;在远程控制端,设计了后台监控网页,两种客户端为用户提供了简单快捷的操作界面以及数据查询等功能;最后根据不同权限的用户,提供对应的多样化控制功能。本文设计的高压电气设备局部放电监控系统具有局部放电声音检测、跟踪控制和远程监控等多种功能。该系统具有智能化程度高、自适应能力强、人机界面友好等多个优点,并且能够有效减少局部放电对高压脉冲设备的影响,能够促进新型高压电气设备在工业领域的广泛应用。