5个研究背景和意义示例,教你写计算机音视频论文

今天分享的是关于音视频的5篇计算机毕业论文范文, 如果你的论文涉及到音视频等主题,本文能够帮助到你

基于音视频应用的综合管理平台的设计与实现

这是一篇关于公安机关,音视频,微服务,电子地图的论文, 主要内容为公安机关在人民政府中占有举足轻重的地位,它是保卫人民安全、维护社会稳定的一支强大力量。随着社会进入信息化时代,公安机关也迎来了技术上的革新,视频,图像等在警察日常工作中所占的比例越来越大。城市中数量繁多、分布广泛的监控设备在为公安机关带来巨大便利的同时,也产生了许多非常棘手的问题。例如,由于这些设备生产自不同的品牌,所以统一调度工作十分困难;监控设备生成的图像、视频文件存放在不同的位置,查找过程十分耗时、且工作效率低下;设备在运行环境中产生的问题无法及时准确的告知用户;用户无法直观的将设备与部署位置相关联。针对上述问题,为了迎合信息化时代给公安机关带来的巨大变革,让公安民警能够使用一个管理平台对来自不同厂家不同型号的监控设备进行统一的调度、管理、查看,本文设计并实现了一个音视频应用综合管理平台,主要研究内容如下:(1)兼容不同的监控设备。目前市面上存在着以海康、大华为首的多种品牌监控设备,这些设备的文件存储、视频点流等功能均存在较大差异。本系统使用面向接口的编程思想,结合厂家SDK,针对不同品牌的设备给出不同实现。使用户可通过本系统对设备进行一站式管理、点流、控制。(2)使用浏览器播放RTSP协议流媒体。目前市面上的绝大多数监控设备使用RTSP协议推流,而绝大多数的浏览器并不支持RTSP协议流媒体播放。本系统分别采用OCX插件以及转封装为Flv格式的方式,设计并实现了浏览器播放RTSP视频的功能。(3)采用微服务开发系统。本系统采用Spring Cloud微服务框架,以横向切分业务模块的方式对系统进行了划分,将其区分为不同的基础子服务,使得系统在具有较强可扩展性的前提下可以更加高效地使用服务器资源和更快速迭代开发。(4)提供电子地图服务模块。目前已有的管理系统大多数并不提供该功能模块,用户难以将设备信息与设备实体关联起来。本系统使用OpenLayers框架搭建电子地图子模块,使用户在进行设备部署时可以结合电子地图更好的决定部署位置。(5)提供可视化操作界面。本文使用Vue框架,为系统设计并实现了一套可视化操作界面,用户通过浏览器即可使用本系统。经实践,在该平台上线公安网之后,各个页面显示正常,各个功能运行良好,满足用户预期。综上所述,该基于音视频应用的综合管理平台能够满足公安机关管理多品牌监控设备的日常工作需求。

基于音视频应用的综合管理平台的设计与实现

基于WebRTC的车载指挥调度系统的研究与实现

这是一篇关于软件开发,指挥调度系统,车载,音视频,无线自组网,WebRTC的论文, 主要内容为目前政府在抗洪抢险、森林救火等领域经常会发生通信环境恶劣导致通信中断,无法指挥调度救援的情况,因而造成巨大损失。如何在公网无法提供通讯支持的特殊环境下进行指挥调度是解决该问题的关键所在。因此,本文设计开发了一种基于WebRTC的车载指挥调度系统。系统由系统管理模块、车辆管理模块、系统配置模块和指挥调度模块组成。具有以下功能:(1)对车辆信息进行增删改查;(2)坐席发送短消息指令指挥调度其他车辆;(3)坐席与其他车辆进行音视频通话;(4)对其他车辆进行视频监控,能够随时观察车辆当前状况。本文分析了特殊通信环境下进行指挥调度所面临的问题,在此基础上对系统业务逻辑做出需求分析整合,完成车载指挥调度系统的技术框架的搭建、逻辑功能的实现、数据库、数据表的设计,制定出系统总体设计方案。系统基于J2EE平台设计实现,使用WebRTC开源库中的通信协议作为音视频架构的基础;采用MVC设计模式对系统进行分层实现,最顶层通过JSP技术开发各个网页终端界面;中间层则是系统的核心部分,包含了系统控制器和提供使用者存取操作的系统服务,使用Struts框架实现依赖JSP,通过Hibernate框架实现前后端的交互;最底层则是系统通过Mysql数据库实现数据存放操作。以组件化架构的方式架构系统,使系统在开发维护上更加简易方便,提升系统开发维护的效能。系统开发后,对系统各种模块进行了功能测试和性能测试。经测试,系统满足设计需求,实现了音视频通话、车辆监控、车辆信息管理、调度短消息发送等功能;通过压力工具JMeter分别模拟5、10、50、80、100、200、500个用户同时访问系统,系统没有宕机现象,系统的平均响应时间约为1.5秒,达到性能需求指标。系统整体测试结果达到了预期的目标。

基于WebRTC的车载指挥调度系统的研究与实现

基于深度神经网络的语音增强和分离技术研究

这是一篇关于语音增强,语音分离,神经网络,波束形成,音视频,多通道的论文, 主要内容为近年来基于深度学习的声学和语言建模技术极大的提升了语音识别性能。然而在真实环境下,受到远场信号衰减、噪声混响、说话人重叠等复杂声学环境的影响,语音识别的性能会显著的下降。语音增强和语音分离技术是解决噪声和说话人干扰的声学前端技术,旨在提升语音信号质量,在人耳听觉感知层面或者识别率层面提升语音交互系统的整体表现。本文以语音增强和分离任务为核心,分别对基于时频掩码的自适应波束形成技术、单通道时域音视频多模态语音分离技术、端到端的多通道在线语音分离技术进行了研究。1.基于时频掩码的自适应波束形成技术。自适应波束形成技术是经典的多通道语音增强算法,通过在远场噪声环境下对干扰方向上的噪声进行有效的抑制来提升语音质量。传统的自适应波束形成技术,以MVDR为例,往往需要依赖声源定位算法提供一个波达方向,且难以准确的估计声源和噪声的协方差矩阵,因此往往在识别率和信噪比上的提升有限。基于时频掩码的自适应波束形成技术与麦克风阵列结构无关,它通过预计声源的时频掩码来估计导向矢量和协方差矩阵,结果更加准确。本文首先在CHi ME4数据上验证了该方法在语音增强任务中的有效性,并在CHi ME5多通道语音分离竞赛中,提出一种基于ivector的指导特征,对分离模型进行说话人启发训练,估计目标说话人时频掩码的方法。在仅使用单个分离模型和基线声学模型的条件下,本文提出的方案在开发集的识别率上获得了10%的WER绝对下降。进一步使用本文优化的声学模型将WER绝对下降扩展到20%。2.单通道时域音视频多模态语音分离。在语音增强/分离任务中,时域上的模型往往可以得到比频域更好的结果,因为其不需要显式的解决相位增强的问题。视觉特征相比说话人信息,方位特征等语音特征,具有噪声无关、信息丰富等优点,是一种比较强的有偏特征。因此使用视觉信息作为先验的音视频融合模型是一种常见的目标说话人分离方案。前人提出的音视频融合方法使用频域的音频建模方法和基于人脸或者关键词级别的视频嵌入表示特征。频域的音频建模方案需要额外的模块解决相位问题,而使用人脸或者词作为特征提取器训练目标得到的视频特征较为粗糙,且训练目标和分离任务的耦合度较低。本文提出使用音素标签训练唇部特征提取器和使用时域样本的音频建模方法,可以更好的表示说话人内容信息以及解决相位增强问题。在LRS2上仿真的双/三说话人训练集上进行多说话人训练之后,相比最先进的时域模型Conv-Tas Net和对应的频域音视频分离方案,在测试集上获得了3～4个d B的信噪比绝对提升。3.端到端的多通道在线语音分离技术。针对会议转录场景设计的分离方案在实际部署中需要满足低延迟和提升识别率的需求。基于神经网络的自适应波束形成技术由于延迟高,在较低延迟的条件下比较难拿到理想的识别率提升。因此微软先前提出的解混-定位-提取(ULE)方案,采用不会引入系统延迟的固定波束形成器替代自适应波束。由于固定波束的干扰消除能力较差,且需要依赖于定位模块进行波束选择,所以ULE系统设计了提取网络用于进一步消除选取波束上的干扰说话人,而解混和定位模块则用于估计说话人方位。本文基于该方案,进一步的提出了一种端到端训练的多通道模型,采用基于注意力机制的波束选择方法,达到了解混、定位、提取三个网络在训练阶段联合优化的目标。在使用实录数据混合的双说话人测试集上,该模型可以在离线环境下获得和基于时频掩码的MVDR和ULE方案相近的结果,在线模式中相比ULE可以取得12.47%和22.40%的WER相对降低。

本文内容包括但不限于文字、数据、图表及超链接等）均来源于该信息及资料的相关主题。发布者：源码码头，原文地址：https://bishedaima.com/lunwen/51297.html