圆柱形相控阵雷达空域信号处理系统的设计与FPGA实现
这是一篇关于圆柱形相控阵,抗干扰,阵列测角,FPGA,幅相误差校正,波束形成的论文, 主要内容为圆柱形相控阵雷达具有全方位的波束覆盖能力与强大的波束控制能力,将其与圆柱形飞行器表面相匹配,既可以提高载体的机动性、隐蔽性与观测范围,又可以提高通信的效率和抗干扰能力,是“空天地一体化”信息网络中的关键角色。本文以某基于圆柱形相控阵雷达的通信系统项目为依托,对其信号处理系统中涉及的算法进行理论分析与工程实现。设计主要包括方向图旁瓣电平优化、空域自适应波束形成优化、目标方位测角精度优化、板级FPGA工程实现优化四部分。具体的研究内容及成果如下:首先建立圆柱形相控阵数学模型,从收发波束形成、目标方位测量与空域自适应抗干扰三个方面设计空域信号处理系统,并结合工程应用背景与项目需求对所设计的算法进行优化。其中,针对收发波束形成算法,采用投影相交准则控制阵元工作状态,使得阵列功耗降低至原本的1/3;采用最优波束形成准则,在有向阵元的基础上,结合圆柱阵的曲面特性,提出一种基于广义泰勒窗函数的旁瓣电平优化方法来进一步实现极低副瓣的接收多波束。针对空域自适应抗干扰,提出广义自适应旁瓣对消算法实现干扰抑制,从信干噪比、幅相误差、阵元方向性等方面进行优化,并对圆柱形相控阵的辅助阵元选取原则分析探讨,设计最优的辅助阵元位置,获得最佳的空域干扰抑制能力。针对目标方位测量,采用单脉冲和差波束比相法实现对目标角度的估计,设计三阶函数曲线精确拟合鉴角曲线,实现极低工程运算量的方位测量;且利用通信信号的特点,提出多点采样均值测角法,并引入幅相误差校正算法,提高算法测角性能。随后研究并设计信号处理系统在FPGA上的工程实现方案,从板卡设计、模块划分、功能分析、逻辑设计、资源损耗、误差分析与工程优化等多个方面进行分析。针对数字波束形成模块,设计状态机来描述并控制系统复杂的工作状态,优化系统时序;采用RAM结构存储需多次读取的幅相误差校正系数,采用FIFO结构存储单次刷新的权值系数,采用流水线结构优化复杂代数计算,提高系统实时性。针对空域干扰抑制模块,结合工程实现方案,将复杂的阻塞矩阵乘法运算简化为实数乘法与减法运算;针对自适应最优权值的矩阵运算,采用定点转浮点再转定点的运算方案提升计算精度;设计数据同步模块,解决不同模块间的数据时序不匹配问题。针对目标方位测量模块,优化复数除法计算流程,节省DSP资源损耗;针对鉴角曲线的精确拟合,结合圆柱阵的对称特性,设计特定的单组多角度三阶函数来拟合全阵列全范围鉴角曲线,并采用ROM结构存储只读数据,优化存储资源,实现精确鉴角曲线拟合系数的存储与读取。最后设计FPGA信号处理模块在板级的功能验证方案。其首先搭建Matlab与Vivado联合的测试系统,通过JTAG接口与板卡连接。然后利用VIO与ILA对关键节点信号进行捕获并导入Matlab中,从时域与频域两个维度观察其结果,分析量化误差与舍入误差的产生原因,并给出优化方案。最后给出FPGA中信号处理系统的资源占用情况与时序分析结果,实现FPGA板级的验证与分析。
基于深度神经网络的语音增强和分离技术研究
这是一篇关于语音增强,语音分离,神经网络,波束形成,音视频,多通道的论文, 主要内容为近年来基于深度学习的声学和语言建模技术极大的提升了语音识别性能。然而在真实环境下,受到远场信号衰减、噪声混响、说话人重叠等复杂声学环境的影响,语音识别的性能会显著的下降。语音增强和语音分离技术是解决噪声和说话人干扰的声学前端技术,旨在提升语音信号质量,在人耳听觉感知层面或者识别率层面提升语音交互系统的整体表现。本文以语音增强和分离任务为核心,分别对基于时频掩码的自适应波束形成技术、单通道时域音视频多模态语音分离技术、端到端的多通道在线语音分离技术进行了研究。1.基于时频掩码的自适应波束形成技术。自适应波束形成技术是经典的多通道语音增强算法,通过在远场噪声环境下对干扰方向上的噪声进行有效的抑制来提升语音质量。传统的自适应波束形成技术,以MVDR为例,往往需要依赖声源定位算法提供一个波达方向,且难以准确的估计声源和噪声的协方差矩阵,因此往往在识别率和信噪比上的提升有限。基于时频掩码的自适应波束形成技术与麦克风阵列结构无关,它通过预计声源的时频掩码来估计导向矢量和协方差矩阵,结果更加准确。本文首先在CHi ME4数据上验证了该方法在语音增强任务中的有效性,并在CHi ME5多通道语音分离竞赛中,提出一种基于ivector的指导特征,对分离模型进行说话人启发训练,估计目标说话人时频掩码的方法。在仅使用单个分离模型和基线声学模型的条件下,本文提出的方案在开发集的识别率上获得了10%的WER绝对下降。进一步使用本文优化的声学模型将WER绝对下降扩展到20%。2.单通道时域音视频多模态语音分离。在语音增强/分离任务中,时域上的模型往往可以得到比频域更好的结果,因为其不需要显式的解决相位增强的问题。视觉特征相比说话人信息,方位特征等语音特征,具有噪声无关、信息丰富等优点,是一种比较强的有偏特征。因此使用视觉信息作为先验的音视频融合模型是一种常见的目标说话人分离方案。前人提出的音视频融合方法使用频域的音频建模方法和基于人脸或者关键词级别的视频嵌入表示特征。频域的音频建模方案需要额外的模块解决相位问题,而使用人脸或者词作为特征提取器训练目标得到的视频特征较为粗糙,且训练目标和分离任务的耦合度较低。本文提出使用音素标签训练唇部特征提取器和使用时域样本的音频建模方法,可以更好的表示说话人内容信息以及解决相位增强问题。在LRS2上仿真的双/三说话人训练集上进行多说话人训练之后,相比最先进的时域模型Conv-Tas Net和对应的频域音视频分离方案,在测试集上获得了3~4个d B的信噪比绝对提升。3.端到端的多通道在线语音分离技术。针对会议转录场景设计的分离方案在实际部署中需要满足低延迟和提升识别率的需求。基于神经网络的自适应波束形成技术由于延迟高,在较低延迟的条件下比较难拿到理想的识别率提升。因此微软先前提出的解混-定位-提取(ULE)方案,采用不会引入系统延迟的固定波束形成器替代自适应波束。由于固定波束的干扰消除能力较差,且需要依赖于定位模块进行波束选择,所以ULE系统设计了提取网络用于进一步消除选取波束上的干扰说话人,而解混和定位模块则用于估计说话人方位。本文基于该方案,进一步的提出了一种端到端训练的多通道模型,采用基于注意力机制的波束选择方法,达到了解混、定位、提取三个网络在训练阶段联合优化的目标。在使用实录数据混合的双说话人测试集上,该模型可以在离线环境下获得和基于时频掩码的MVDR和ULE方案相近的结果,在线模式中相比ULE可以取得12.47%和22.40%的WER相对降低。
基于波束形成识别技术的GIS机械谐振源定位方法研究
这是一篇关于GIS,机械谐振源,波束形成,可视化定位的论文, 主要内容为GIS设备作为在电力系统中广泛应用的重要设备,其工作状态的健康状况直接影响到电力系统的安全稳定运行,一直以来是科研人员的重点研究对象。随着我国电力系统的快速发展,GIS设备在运行时出现的机械故障问题逐渐突出,威胁着我国电网的安全稳定运行。相比于当前以振动检测为主的检测手段,亟需一种非接触式的GIS机械谐振源定位检测方法,因此本文结合波束形成识别技术对GIS机械谐振源定位方法进行了相关的研究。首先本文对当前GIS设备的主要检测手段进行了对比与归纳,阐述了本课题的研究目的与意义,并且对声源定位技术和GIS机械谐振源检测的研究现状进行了介绍,归纳出本文的主要研究内容。其次本文阐述了波束形成算法的相关计算模型,作为后续算法原理介绍的基础。进而对延时求和算法、MUSIC算法和Unitary-ESPRIT算法三种算法的计算原理以及实现步骤进行详细的介绍。最终结合MATLAB数值仿真,对三种算法在空间分辨率、精度性能和计算效率三个方面进行了比较,确定出后续系统开发所用的波束形成算法。之后本文介绍了GIS机械谐振源定位检测系统的硬件设计方案,介绍其硬件组成以及各部分之间的关系,并详细介绍硬件的选型及其功能参数。最后本文详细介绍了GIS机械谐振源定位检测系统的软件设计方案,对软件设计中的各个模块进行了详细介绍。经过软硬件的设计和选型后,基于Lab VIEW软件平台设计开发出一套GIS机械谐振源定位检测系统,并通过实验室测试实验与现场测试实验,对本文的声源定位方法和系统平台进行了验证,结果证明其具有良好的可靠性与可行性。
圆柱形相控阵雷达空域信号处理系统的设计与FPGA实现
这是一篇关于圆柱形相控阵,抗干扰,阵列测角,FPGA,幅相误差校正,波束形成的论文, 主要内容为圆柱形相控阵雷达具有全方位的波束覆盖能力与强大的波束控制能力,将其与圆柱形飞行器表面相匹配,既可以提高载体的机动性、隐蔽性与观测范围,又可以提高通信的效率和抗干扰能力,是“空天地一体化”信息网络中的关键角色。本文以某基于圆柱形相控阵雷达的通信系统项目为依托,对其信号处理系统中涉及的算法进行理论分析与工程实现。设计主要包括方向图旁瓣电平优化、空域自适应波束形成优化、目标方位测角精度优化、板级FPGA工程实现优化四部分。具体的研究内容及成果如下:首先建立圆柱形相控阵数学模型,从收发波束形成、目标方位测量与空域自适应抗干扰三个方面设计空域信号处理系统,并结合工程应用背景与项目需求对所设计的算法进行优化。其中,针对收发波束形成算法,采用投影相交准则控制阵元工作状态,使得阵列功耗降低至原本的1/3;采用最优波束形成准则,在有向阵元的基础上,结合圆柱阵的曲面特性,提出一种基于广义泰勒窗函数的旁瓣电平优化方法来进一步实现极低副瓣的接收多波束。针对空域自适应抗干扰,提出广义自适应旁瓣对消算法实现干扰抑制,从信干噪比、幅相误差、阵元方向性等方面进行优化,并对圆柱形相控阵的辅助阵元选取原则分析探讨,设计最优的辅助阵元位置,获得最佳的空域干扰抑制能力。针对目标方位测量,采用单脉冲和差波束比相法实现对目标角度的估计,设计三阶函数曲线精确拟合鉴角曲线,实现极低工程运算量的方位测量;且利用通信信号的特点,提出多点采样均值测角法,并引入幅相误差校正算法,提高算法测角性能。随后研究并设计信号处理系统在FPGA上的工程实现方案,从板卡设计、模块划分、功能分析、逻辑设计、资源损耗、误差分析与工程优化等多个方面进行分析。针对数字波束形成模块,设计状态机来描述并控制系统复杂的工作状态,优化系统时序;采用RAM结构存储需多次读取的幅相误差校正系数,采用FIFO结构存储单次刷新的权值系数,采用流水线结构优化复杂代数计算,提高系统实时性。针对空域干扰抑制模块,结合工程实现方案,将复杂的阻塞矩阵乘法运算简化为实数乘法与减法运算;针对自适应最优权值的矩阵运算,采用定点转浮点再转定点的运算方案提升计算精度;设计数据同步模块,解决不同模块间的数据时序不匹配问题。针对目标方位测量模块,优化复数除法计算流程,节省DSP资源损耗;针对鉴角曲线的精确拟合,结合圆柱阵的对称特性,设计特定的单组多角度三阶函数来拟合全阵列全范围鉴角曲线,并采用ROM结构存储只读数据,优化存储资源,实现精确鉴角曲线拟合系数的存储与读取。最后设计FPGA信号处理模块在板级的功能验证方案。其首先搭建Matlab与Vivado联合的测试系统,通过JTAG接口与板卡连接。然后利用VIO与ILA对关键节点信号进行捕获并导入Matlab中,从时域与频域两个维度观察其结果,分析量化误差与舍入误差的产生原因,并给出优化方案。最后给出FPGA中信号处理系统的资源占用情况与时序分析结果,实现FPGA板级的验证与分析。
基于深度神经网络的语音增强和分离技术研究
这是一篇关于语音增强,语音分离,神经网络,波束形成,音视频,多通道的论文, 主要内容为近年来基于深度学习的声学和语言建模技术极大的提升了语音识别性能。然而在真实环境下,受到远场信号衰减、噪声混响、说话人重叠等复杂声学环境的影响,语音识别的性能会显著的下降。语音增强和语音分离技术是解决噪声和说话人干扰的声学前端技术,旨在提升语音信号质量,在人耳听觉感知层面或者识别率层面提升语音交互系统的整体表现。本文以语音增强和分离任务为核心,分别对基于时频掩码的自适应波束形成技术、单通道时域音视频多模态语音分离技术、端到端的多通道在线语音分离技术进行了研究。1.基于时频掩码的自适应波束形成技术。自适应波束形成技术是经典的多通道语音增强算法,通过在远场噪声环境下对干扰方向上的噪声进行有效的抑制来提升语音质量。传统的自适应波束形成技术,以MVDR为例,往往需要依赖声源定位算法提供一个波达方向,且难以准确的估计声源和噪声的协方差矩阵,因此往往在识别率和信噪比上的提升有限。基于时频掩码的自适应波束形成技术与麦克风阵列结构无关,它通过预计声源的时频掩码来估计导向矢量和协方差矩阵,结果更加准确。本文首先在CHi ME4数据上验证了该方法在语音增强任务中的有效性,并在CHi ME5多通道语音分离竞赛中,提出一种基于ivector的指导特征,对分离模型进行说话人启发训练,估计目标说话人时频掩码的方法。在仅使用单个分离模型和基线声学模型的条件下,本文提出的方案在开发集的识别率上获得了10%的WER绝对下降。进一步使用本文优化的声学模型将WER绝对下降扩展到20%。2.单通道时域音视频多模态语音分离。在语音增强/分离任务中,时域上的模型往往可以得到比频域更好的结果,因为其不需要显式的解决相位增强的问题。视觉特征相比说话人信息,方位特征等语音特征,具有噪声无关、信息丰富等优点,是一种比较强的有偏特征。因此使用视觉信息作为先验的音视频融合模型是一种常见的目标说话人分离方案。前人提出的音视频融合方法使用频域的音频建模方法和基于人脸或者关键词级别的视频嵌入表示特征。频域的音频建模方案需要额外的模块解决相位问题,而使用人脸或者词作为特征提取器训练目标得到的视频特征较为粗糙,且训练目标和分离任务的耦合度较低。本文提出使用音素标签训练唇部特征提取器和使用时域样本的音频建模方法,可以更好的表示说话人内容信息以及解决相位增强问题。在LRS2上仿真的双/三说话人训练集上进行多说话人训练之后,相比最先进的时域模型Conv-Tas Net和对应的频域音视频分离方案,在测试集上获得了3~4个d B的信噪比绝对提升。3.端到端的多通道在线语音分离技术。针对会议转录场景设计的分离方案在实际部署中需要满足低延迟和提升识别率的需求。基于神经网络的自适应波束形成技术由于延迟高,在较低延迟的条件下比较难拿到理想的识别率提升。因此微软先前提出的解混-定位-提取(ULE)方案,采用不会引入系统延迟的固定波束形成器替代自适应波束。由于固定波束的干扰消除能力较差,且需要依赖于定位模块进行波束选择,所以ULE系统设计了提取网络用于进一步消除选取波束上的干扰说话人,而解混和定位模块则用于估计说话人方位。本文基于该方案,进一步的提出了一种端到端训练的多通道模型,采用基于注意力机制的波束选择方法,达到了解混、定位、提取三个网络在训练阶段联合优化的目标。在使用实录数据混合的双说话人测试集上,该模型可以在离线环境下获得和基于时频掩码的MVDR和ULE方案相近的结果,在线模式中相比ULE可以取得12.47%和22.40%的WER相对降低。
基于深度神经网络的语音增强和分离技术研究
这是一篇关于语音增强,语音分离,神经网络,波束形成,音视频,多通道的论文, 主要内容为近年来基于深度学习的声学和语言建模技术极大的提升了语音识别性能。然而在真实环境下,受到远场信号衰减、噪声混响、说话人重叠等复杂声学环境的影响,语音识别的性能会显著的下降。语音增强和语音分离技术是解决噪声和说话人干扰的声学前端技术,旨在提升语音信号质量,在人耳听觉感知层面或者识别率层面提升语音交互系统的整体表现。本文以语音增强和分离任务为核心,分别对基于时频掩码的自适应波束形成技术、单通道时域音视频多模态语音分离技术、端到端的多通道在线语音分离技术进行了研究。1.基于时频掩码的自适应波束形成技术。自适应波束形成技术是经典的多通道语音增强算法,通过在远场噪声环境下对干扰方向上的噪声进行有效的抑制来提升语音质量。传统的自适应波束形成技术,以MVDR为例,往往需要依赖声源定位算法提供一个波达方向,且难以准确的估计声源和噪声的协方差矩阵,因此往往在识别率和信噪比上的提升有限。基于时频掩码的自适应波束形成技术与麦克风阵列结构无关,它通过预计声源的时频掩码来估计导向矢量和协方差矩阵,结果更加准确。本文首先在CHi ME4数据上验证了该方法在语音增强任务中的有效性,并在CHi ME5多通道语音分离竞赛中,提出一种基于ivector的指导特征,对分离模型进行说话人启发训练,估计目标说话人时频掩码的方法。在仅使用单个分离模型和基线声学模型的条件下,本文提出的方案在开发集的识别率上获得了10%的WER绝对下降。进一步使用本文优化的声学模型将WER绝对下降扩展到20%。2.单通道时域音视频多模态语音分离。在语音增强/分离任务中,时域上的模型往往可以得到比频域更好的结果,因为其不需要显式的解决相位增强的问题。视觉特征相比说话人信息,方位特征等语音特征,具有噪声无关、信息丰富等优点,是一种比较强的有偏特征。因此使用视觉信息作为先验的音视频融合模型是一种常见的目标说话人分离方案。前人提出的音视频融合方法使用频域的音频建模方法和基于人脸或者关键词级别的视频嵌入表示特征。频域的音频建模方案需要额外的模块解决相位问题,而使用人脸或者词作为特征提取器训练目标得到的视频特征较为粗糙,且训练目标和分离任务的耦合度较低。本文提出使用音素标签训练唇部特征提取器和使用时域样本的音频建模方法,可以更好的表示说话人内容信息以及解决相位增强问题。在LRS2上仿真的双/三说话人训练集上进行多说话人训练之后,相比最先进的时域模型Conv-Tas Net和对应的频域音视频分离方案,在测试集上获得了3~4个d B的信噪比绝对提升。3.端到端的多通道在线语音分离技术。针对会议转录场景设计的分离方案在实际部署中需要满足低延迟和提升识别率的需求。基于神经网络的自适应波束形成技术由于延迟高,在较低延迟的条件下比较难拿到理想的识别率提升。因此微软先前提出的解混-定位-提取(ULE)方案,采用不会引入系统延迟的固定波束形成器替代自适应波束。由于固定波束的干扰消除能力较差,且需要依赖于定位模块进行波束选择,所以ULE系统设计了提取网络用于进一步消除选取波束上的干扰说话人,而解混和定位模块则用于估计说话人方位。本文基于该方案,进一步的提出了一种端到端训练的多通道模型,采用基于注意力机制的波束选择方法,达到了解混、定位、提取三个网络在训练阶段联合优化的目标。在使用实录数据混合的双说话人测试集上,该模型可以在离线环境下获得和基于时频掩码的MVDR和ULE方案相近的结果,在线模式中相比ULE可以取得12.47%和22.40%的WER相对降低。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设小屋 ,原文地址:https://bishedaima.com/lunwen/52283.html