基于深度神经网络的语音增强和分离技术研究
这是一篇关于语音增强,语音分离,神经网络,波束形成,音视频,多通道的论文, 主要内容为近年来基于深度学习的声学和语言建模技术极大的提升了语音识别性能。然而在真实环境下,受到远场信号衰减、噪声混响、说话人重叠等复杂声学环境的影响,语音识别的性能会显著的下降。语音增强和语音分离技术是解决噪声和说话人干扰的声学前端技术,旨在提升语音信号质量,在人耳听觉感知层面或者识别率层面提升语音交互系统的整体表现。本文以语音增强和分离任务为核心,分别对基于时频掩码的自适应波束形成技术、单通道时域音视频多模态语音分离技术、端到端的多通道在线语音分离技术进行了研究。1.基于时频掩码的自适应波束形成技术。自适应波束形成技术是经典的多通道语音增强算法,通过在远场噪声环境下对干扰方向上的噪声进行有效的抑制来提升语音质量。传统的自适应波束形成技术,以MVDR为例,往往需要依赖声源定位算法提供一个波达方向,且难以准确的估计声源和噪声的协方差矩阵,因此往往在识别率和信噪比上的提升有限。基于时频掩码的自适应波束形成技术与麦克风阵列结构无关,它通过预计声源的时频掩码来估计导向矢量和协方差矩阵,结果更加准确。本文首先在CHi ME4数据上验证了该方法在语音增强任务中的有效性,并在CHi ME5多通道语音分离竞赛中,提出一种基于ivector的指导特征,对分离模型进行说话人启发训练,估计目标说话人时频掩码的方法。在仅使用单个分离模型和基线声学模型的条件下,本文提出的方案在开发集的识别率上获得了10%的WER绝对下降。进一步使用本文优化的声学模型将WER绝对下降扩展到20%。2.单通道时域音视频多模态语音分离。在语音增强/分离任务中,时域上的模型往往可以得到比频域更好的结果,因为其不需要显式的解决相位增强的问题。视觉特征相比说话人信息,方位特征等语音特征,具有噪声无关、信息丰富等优点,是一种比较强的有偏特征。因此使用视觉信息作为先验的音视频融合模型是一种常见的目标说话人分离方案。前人提出的音视频融合方法使用频域的音频建模方法和基于人脸或者关键词级别的视频嵌入表示特征。频域的音频建模方案需要额外的模块解决相位问题,而使用人脸或者词作为特征提取器训练目标得到的视频特征较为粗糙,且训练目标和分离任务的耦合度较低。本文提出使用音素标签训练唇部特征提取器和使用时域样本的音频建模方法,可以更好的表示说话人内容信息以及解决相位增强问题。在LRS2上仿真的双/三说话人训练集上进行多说话人训练之后,相比最先进的时域模型Conv-Tas Net和对应的频域音视频分离方案,在测试集上获得了3~4个d B的信噪比绝对提升。3.端到端的多通道在线语音分离技术。针对会议转录场景设计的分离方案在实际部署中需要满足低延迟和提升识别率的需求。基于神经网络的自适应波束形成技术由于延迟高,在较低延迟的条件下比较难拿到理想的识别率提升。因此微软先前提出的解混-定位-提取(ULE)方案,采用不会引入系统延迟的固定波束形成器替代自适应波束。由于固定波束的干扰消除能力较差,且需要依赖于定位模块进行波束选择,所以ULE系统设计了提取网络用于进一步消除选取波束上的干扰说话人,而解混和定位模块则用于估计说话人方位。本文基于该方案,进一步的提出了一种端到端训练的多通道模型,采用基于注意力机制的波束选择方法,达到了解混、定位、提取三个网络在训练阶段联合优化的目标。在使用实录数据混合的双说话人测试集上,该模型可以在离线环境下获得和基于时频掩码的MVDR和ULE方案相近的结果,在线模式中相比ULE可以取得12.47%和22.40%的WER相对降低。
可扩展探测器阵列采集与传输系统模块化设计方法研究
这是一篇关于数据采集,多通道,模块化,可扩展,积木式的论文, 主要内容为随着电子信息技术的迅速发展,人们对光的认知不断地加深,不同波段光信息的获取变得尤为重要,通过光电传感器的数据采集与传输系统是获取光信息的重要手段。目前,大多数的数据采集系统可采集的通道数量有限且系统的功能也比较单一,难以根据光电传感器通道的数量进行灵活地扩展和系统升级。因此,本文根据多通道光电探测器阵列实际需求,研究探测器阵列、模拟信号调理模块、数据采集模块、信号处理模块与传输接口模块等结构及其相互连接关系,提出了一种基于积木式模块化的探测器阵列数据采集与传输系统,可以灵活根据前端阵列数量的需求自由组合采集系统。在进行探测器阵列采集系统设计时,只需要根据采集需求进行模块组合,在模拟底板和数字底板上对模块进行相应的布局和连接并结合逻辑参数的设置,即可以用类似于搭积木的方式完成数据采集与传输系统的设计,降低系统设计的成本和周期。本课题设计完成的模块主要包括前端调理模块、模拟开关模块、数据采集模块、核心控制模块、传输接口模块和桥接模块。其中,桥接模块与数据采集模块、核心控制模块之间,以及数据采集模块与核心控制模块之间通过LVDS高速接口进行数据传输,数据传输的速率可达到600Mbit/s;传输接口模块用于将系统采集到的探测器阵列数据实时传输到上位机。本论文主要从系统模块结构、各模块硬件电路和核心控制逻辑设计三个方面对每个模块进行了详细的介绍。其中,硬件电路设计部分对电路噪声和影响系统性能的电路参数进行了分析,并且给出了提高电路性能的设计与解决方案;逻辑设计部分为方便系统的采集通道扩展,设计了易于扩展的模块逻辑框架,并且将采集系统的主要参数定义为模块的输入参数。论文最后将上述模块搭建成两个测试系统对系统性能进行测试,详细地介绍了测试系统的搭建过程与方法,测试系统分别实现了281路和661路激光探测器阵列的正常采集与传输,验证了基于模块化可扩展硬件系统设计的灵活性与便捷性。
波形记录仪多通道存储技术研究与实现
这是一篇关于波形记录仪,多通道,大容量存储,分区存储,AXI的论文, 主要内容为随着电子信息产业的快速发展,综合测试场景日益复杂,对传统的电子测量仪器提出了更高的性能指标需求。波形记录仪作为集合示波器、数据记录仪功能于一体的电子测试仪器,具备多类型的采集板卡单元,在强弱电混合设备、多种物理信号同时观测等复杂系统中发挥着重要的作用。然而,波形记录仪多通道数据采样率、通道数和存储深度可变组合的特点,也增加了数据存储功能设计实现的复杂度。本文旨在结合波形记录仪硬件平台,提出一种基于MIG IP核AXI总线接口的多通道系统存储方案,并具体设计实现各存储功能模块,同时针对不同模式特点进行优化改进,以提高测试效率。主要研究内容如下:1)设计实现基于DDR3触发存储机制。为解决大容量多源通道数据融合存储问题,并针对DDR3不能同时读写访问的特点,基于触发存储原理设计写地址控制管理解决方案。利用AXI突发机制和outstanding传输特性,优化流水线设计以提高数据写入效率,并对存储过程中地址边界问题提出改进处理方法。2)设计实现大容量数据直接内存抽点。为了进一步地提高读取显示波形概貌效率,本文基于AXI总线设计读地址控制管理,提供一种更高效的波形后处理读取方式,可直接从DDR3中抽点读取数据。通过波形记录仪测试验证平台,在主时钟频率100MHz下,单次波形概貌读取时间为0.6ms左右。3)设计实现分区存储控制器。基于FPGA设计分区控制器,以达到较高的波形捕获效率,管理分区存储过程中的多帧波形触发数据地址。最终实现了最大4096帧分区,并且在分区存储时间内,将波形捕获固定死区时间降低至20ns。4)设计实现实时记录捕获功能。实时记录模式最大支持128通道数据同时采集,通过分时复用方式,并利用AXI总线写响应通道握手反馈,设计实现DDR3边写边读控制。在设置采样时基较大的情况下,当用户需要随机停止时,基于AXI突发传输机制可能会导致等待控制结束时间过长,为此设计快速停止功能,可确保在530ns左右结束控制。为了能够在长期监控记录低速信号变动趋势下,同时捕获高速现象细节信息,基于AXI总线仲裁机制设计实现双重采样功能。此外,本文系统存储功能模块均基于参数化设计,具有较强的灵活性、扩展性和可移植性。
可扩展探测器阵列采集与传输系统模块化设计方法研究
这是一篇关于数据采集,多通道,模块化,可扩展,积木式的论文, 主要内容为随着电子信息技术的迅速发展,人们对光的认知不断地加深,不同波段光信息的获取变得尤为重要,通过光电传感器的数据采集与传输系统是获取光信息的重要手段。目前,大多数的数据采集系统可采集的通道数量有限且系统的功能也比较单一,难以根据光电传感器通道的数量进行灵活地扩展和系统升级。因此,本文根据多通道光电探测器阵列实际需求,研究探测器阵列、模拟信号调理模块、数据采集模块、信号处理模块与传输接口模块等结构及其相互连接关系,提出了一种基于积木式模块化的探测器阵列数据采集与传输系统,可以灵活根据前端阵列数量的需求自由组合采集系统。在进行探测器阵列采集系统设计时,只需要根据采集需求进行模块组合,在模拟底板和数字底板上对模块进行相应的布局和连接并结合逻辑参数的设置,即可以用类似于搭积木的方式完成数据采集与传输系统的设计,降低系统设计的成本和周期。本课题设计完成的模块主要包括前端调理模块、模拟开关模块、数据采集模块、核心控制模块、传输接口模块和桥接模块。其中,桥接模块与数据采集模块、核心控制模块之间,以及数据采集模块与核心控制模块之间通过LVDS高速接口进行数据传输,数据传输的速率可达到600Mbit/s;传输接口模块用于将系统采集到的探测器阵列数据实时传输到上位机。本论文主要从系统模块结构、各模块硬件电路和核心控制逻辑设计三个方面对每个模块进行了详细的介绍。其中,硬件电路设计部分对电路噪声和影响系统性能的电路参数进行了分析,并且给出了提高电路性能的设计与解决方案;逻辑设计部分为方便系统的采集通道扩展,设计了易于扩展的模块逻辑框架,并且将采集系统的主要参数定义为模块的输入参数。论文最后将上述模块搭建成两个测试系统对系统性能进行测试,详细地介绍了测试系统的搭建过程与方法,测试系统分别实现了281路和661路激光探测器阵列的正常采集与传输,验证了基于模块化可扩展硬件系统设计的灵活性与便捷性。
基于深度神经网络的语音增强和分离技术研究
这是一篇关于语音增强,语音分离,神经网络,波束形成,音视频,多通道的论文, 主要内容为近年来基于深度学习的声学和语言建模技术极大的提升了语音识别性能。然而在真实环境下,受到远场信号衰减、噪声混响、说话人重叠等复杂声学环境的影响,语音识别的性能会显著的下降。语音增强和语音分离技术是解决噪声和说话人干扰的声学前端技术,旨在提升语音信号质量,在人耳听觉感知层面或者识别率层面提升语音交互系统的整体表现。本文以语音增强和分离任务为核心,分别对基于时频掩码的自适应波束形成技术、单通道时域音视频多模态语音分离技术、端到端的多通道在线语音分离技术进行了研究。1.基于时频掩码的自适应波束形成技术。自适应波束形成技术是经典的多通道语音增强算法,通过在远场噪声环境下对干扰方向上的噪声进行有效的抑制来提升语音质量。传统的自适应波束形成技术,以MVDR为例,往往需要依赖声源定位算法提供一个波达方向,且难以准确的估计声源和噪声的协方差矩阵,因此往往在识别率和信噪比上的提升有限。基于时频掩码的自适应波束形成技术与麦克风阵列结构无关,它通过预计声源的时频掩码来估计导向矢量和协方差矩阵,结果更加准确。本文首先在CHi ME4数据上验证了该方法在语音增强任务中的有效性,并在CHi ME5多通道语音分离竞赛中,提出一种基于ivector的指导特征,对分离模型进行说话人启发训练,估计目标说话人时频掩码的方法。在仅使用单个分离模型和基线声学模型的条件下,本文提出的方案在开发集的识别率上获得了10%的WER绝对下降。进一步使用本文优化的声学模型将WER绝对下降扩展到20%。2.单通道时域音视频多模态语音分离。在语音增强/分离任务中,时域上的模型往往可以得到比频域更好的结果,因为其不需要显式的解决相位增强的问题。视觉特征相比说话人信息,方位特征等语音特征,具有噪声无关、信息丰富等优点,是一种比较强的有偏特征。因此使用视觉信息作为先验的音视频融合模型是一种常见的目标说话人分离方案。前人提出的音视频融合方法使用频域的音频建模方法和基于人脸或者关键词级别的视频嵌入表示特征。频域的音频建模方案需要额外的模块解决相位问题,而使用人脸或者词作为特征提取器训练目标得到的视频特征较为粗糙,且训练目标和分离任务的耦合度较低。本文提出使用音素标签训练唇部特征提取器和使用时域样本的音频建模方法,可以更好的表示说话人内容信息以及解决相位增强问题。在LRS2上仿真的双/三说话人训练集上进行多说话人训练之后,相比最先进的时域模型Conv-Tas Net和对应的频域音视频分离方案,在测试集上获得了3~4个d B的信噪比绝对提升。3.端到端的多通道在线语音分离技术。针对会议转录场景设计的分离方案在实际部署中需要满足低延迟和提升识别率的需求。基于神经网络的自适应波束形成技术由于延迟高,在较低延迟的条件下比较难拿到理想的识别率提升。因此微软先前提出的解混-定位-提取(ULE)方案,采用不会引入系统延迟的固定波束形成器替代自适应波束。由于固定波束的干扰消除能力较差,且需要依赖于定位模块进行波束选择,所以ULE系统设计了提取网络用于进一步消除选取波束上的干扰说话人,而解混和定位模块则用于估计说话人方位。本文基于该方案,进一步的提出了一种端到端训练的多通道模型,采用基于注意力机制的波束选择方法,达到了解混、定位、提取三个网络在训练阶段联合优化的目标。在使用实录数据混合的双说话人测试集上,该模型可以在离线环境下获得和基于时频掩码的MVDR和ULE方案相近的结果,在线模式中相比ULE可以取得12.47%和22.40%的WER相对降低。
基于深度神经网络的语音增强和分离技术研究
这是一篇关于语音增强,语音分离,神经网络,波束形成,音视频,多通道的论文, 主要内容为近年来基于深度学习的声学和语言建模技术极大的提升了语音识别性能。然而在真实环境下,受到远场信号衰减、噪声混响、说话人重叠等复杂声学环境的影响,语音识别的性能会显著的下降。语音增强和语音分离技术是解决噪声和说话人干扰的声学前端技术,旨在提升语音信号质量,在人耳听觉感知层面或者识别率层面提升语音交互系统的整体表现。本文以语音增强和分离任务为核心,分别对基于时频掩码的自适应波束形成技术、单通道时域音视频多模态语音分离技术、端到端的多通道在线语音分离技术进行了研究。1.基于时频掩码的自适应波束形成技术。自适应波束形成技术是经典的多通道语音增强算法,通过在远场噪声环境下对干扰方向上的噪声进行有效的抑制来提升语音质量。传统的自适应波束形成技术,以MVDR为例,往往需要依赖声源定位算法提供一个波达方向,且难以准确的估计声源和噪声的协方差矩阵,因此往往在识别率和信噪比上的提升有限。基于时频掩码的自适应波束形成技术与麦克风阵列结构无关,它通过预计声源的时频掩码来估计导向矢量和协方差矩阵,结果更加准确。本文首先在CHi ME4数据上验证了该方法在语音增强任务中的有效性,并在CHi ME5多通道语音分离竞赛中,提出一种基于ivector的指导特征,对分离模型进行说话人启发训练,估计目标说话人时频掩码的方法。在仅使用单个分离模型和基线声学模型的条件下,本文提出的方案在开发集的识别率上获得了10%的WER绝对下降。进一步使用本文优化的声学模型将WER绝对下降扩展到20%。2.单通道时域音视频多模态语音分离。在语音增强/分离任务中,时域上的模型往往可以得到比频域更好的结果,因为其不需要显式的解决相位增强的问题。视觉特征相比说话人信息,方位特征等语音特征,具有噪声无关、信息丰富等优点,是一种比较强的有偏特征。因此使用视觉信息作为先验的音视频融合模型是一种常见的目标说话人分离方案。前人提出的音视频融合方法使用频域的音频建模方法和基于人脸或者关键词级别的视频嵌入表示特征。频域的音频建模方案需要额外的模块解决相位问题,而使用人脸或者词作为特征提取器训练目标得到的视频特征较为粗糙,且训练目标和分离任务的耦合度较低。本文提出使用音素标签训练唇部特征提取器和使用时域样本的音频建模方法,可以更好的表示说话人内容信息以及解决相位增强问题。在LRS2上仿真的双/三说话人训练集上进行多说话人训练之后,相比最先进的时域模型Conv-Tas Net和对应的频域音视频分离方案,在测试集上获得了3~4个d B的信噪比绝对提升。3.端到端的多通道在线语音分离技术。针对会议转录场景设计的分离方案在实际部署中需要满足低延迟和提升识别率的需求。基于神经网络的自适应波束形成技术由于延迟高,在较低延迟的条件下比较难拿到理想的识别率提升。因此微软先前提出的解混-定位-提取(ULE)方案,采用不会引入系统延迟的固定波束形成器替代自适应波束。由于固定波束的干扰消除能力较差,且需要依赖于定位模块进行波束选择,所以ULE系统设计了提取网络用于进一步消除选取波束上的干扰说话人,而解混和定位模块则用于估计说话人方位。本文基于该方案,进一步的提出了一种端到端训练的多通道模型,采用基于注意力机制的波束选择方法,达到了解混、定位、提取三个网络在训练阶段联合优化的目标。在使用实录数据混合的双说话人测试集上,该模型可以在离线环境下获得和基于时频掩码的MVDR和ULE方案相近的结果,在线模式中相比ULE可以取得12.47%和22.40%的WER相对降低。
高精度多通道同步采集与合成模块设计及实现
这是一篇关于高精度,多通道,同步采集,多功能测试模块,PXIe的论文, 主要内容为随着被测对象的复杂度越来越高,对于多功能测试设备的需求也越来越高,为了解决联合测试、便携式测试的问题,提升电子测量仪器的测试范围以及测试能力,对多功能测试模块的研究提出了新的挑战。本文针对传统测试系统功能单一、体积庞大等问题,定位当前测量仪器市场需求,设计并实现了基于PXIe总线的3U单槽高精度多通道同步采集与合成模块。本文的主要研究内容如下:1、结合模块体积小、测试资源多、集成度高的需求,通过对功能指标的合理划分、关键器件对比选型、数据通信协议的规划,采用子母板层叠的硬件构架,完成高精度多通道同步采集与合成模块的总体方案设计。2、根据系统指标要求,结合所选器件和PXIe接口需求开展了模块电路级的详细分析并予以实现,完成了16路采集通道、4路合成通道与48路数字IO通道中的信号调理与驱动电路设计,其中对信号的缓冲与保护、衰减与放大、差分转换等功能进行了具体分析与实现。3、结合模拟与数字混合信号测试需求,在FPGA内部完成基于XDMA架构的PXIe总线通信设计,根据数据类型的差别,采用AXI4-Stream总线传输数据流,AXI4-Lite总线配置状态寄存器,实现了上位机对模块的读写操作;考虑到多通道采集过程中,时钟同步和数据同步的需求,设计IDELAY+ISERDES的串行数据接收架构,满足高精度与多通道的采集需求;结合合成通道的需求,选择了DDWS技术实现波形合成,完成多通道合成逻辑设计。经过对以上内容的研究和设计,完成高精度多通道同步采集与合成模块设计,并经测试验证,模块实现16通道高精度同步采集功能;4通道高精度合成功能以及48通道可编程数字IO功能。
基于Swin Transformer的深度伪造检测技术研究与实现
这是一篇关于深度伪造检测,多通道,二维卷积,通道注意力,自注意力的论文, 主要内容为深度伪造(Deepfake)是深度学习(Deep Learning)和伪造(Fake)的混成词。此技术可将已有的图像或视频叠加至目标图像或视频上。该技术的滥用使得网络上信息传播的复杂程度日益加剧,不法分子利用这些技术进行诽谤、欺诈、勒索,危害国家安全,损害个人和社会公共利益。因此,如何针对这些伪造内容进行高效检测已经成为亟待解决的问题。本文基于多通道信息提取方法、混合缩放方法和双流注意力方法,提出了两种深度伪造检测方法,并进一步实现了便捷高效的深度伪造检测系统。本文主要研究内容如下:(1)本文提出一种基于多通道Swin Transformer的深度伪造检测方法。通过提取图像的色彩空间、人脸特征空间和频域空间中的通道信息并将其堆叠为多通道信息,实现了数据的多通道信息提取。将这些多通道信息输入到Swin Transformer特征提取器进行检测,并通过交叉熵损失函数和Adam W优化器执行模型的反向传播过程,最终得到检测模型。在公开数据集Face Forensics++(FF++)上进行测试后,实验结果显示该方法的深度伪造检测准确率达到了94.71%,优于其他检测方法。(2)本文提出一种基于混合缩放双流注意力网络的深度伪造检测方法。该方法通过将混合缩放模块和基于Swin Transformer的双流注意力模块结合以检测深度伪造视频。混合缩放模块由残差下采样、融合卷积和压缩卷积组成,实现了更高效的局部特征提取。双流注意力模块则通过结合自注意力机制和通道注意力机制,实现了全局维度与通道维度的特征提取。在整体架构设计中,混合缩放模块负责提取数据的浅层局部特征,而双流注意力模块负责提取数据的深层全局特征。通过在FF++数据集上进行实验,结果显示该方法的深度伪造检测准确率达到了95.62%,证实了其优越性。(3)本文设计并实现了一种深度伪造检测系统。该系统采用标准的浏览器/服务器架构,前端基于Vue框架构建,后端使用Flask框架进行开发。对于异步任务,系统采用Redis作为消息队列,由Celery负责处理队列中的异步任务。在提供用户权限和记录管理等基础功能服务的基础上,通过将前述深度伪造检测方法作为模块单独嵌入到系统中,为用户提供便捷的深度伪造检测服务。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设向导 ,原文地址:https://bishedaima.com/lunwen/47754.html