程序设计课程的智能语音问答系统的研究与实现
这是一篇关于深度学习,语音识别,生成式问答模型,词向量,TensorFlow的论文, 主要内容为随着深度学习和语音识别技术的快速进步,智能语音问答系统获得的关注度越来越多。对于传统的问答系统而言,系统通常是根据用户输入的问题按照既定的模板规则进行匹配,或者在一个很大的信息数据库里面检索,得到已经编辑好的相应问题的答案,然后将得到的答案返回给目标用户,而基于深度学习的智能问答系统则是从大量问答对数据集中进行学习,提取特征,从而根据用户输入的问题为用户生成对应的答案。在本文中,将根据程序设计课程的基本需求,并基于国内外对深度学习、语音识别、问答、微服务相关技术的分析,对基于深度学习的问答以及语音识别进行了研究和改进,提出一种智能语音问答系统解决方案,并基于Android系统开发了智能语音问答系统。首先,分析和研究智能语音问答系统需要用到的理论知识和技术,了解系统当中所需要的基本功能。其次,分析和研究现有的语音识别方法,选用百度语音识别工具来识别用户输入的语音。同时基于开源Android智能手机操作系统开发了人机交互应用程序,用户可以进行语音提问,然后通过语音识别模块将输入的语音识别成文字。再者,分析和研究现有的微服务技术实现方法,选用微服务架构来设计后端,使用高性能分布式服务框架Dubbo来连接不同的服务,使得服务和服务之间能够相互通信。并且使用前端与后端完全分离的方式开发了语料管理系统,管理员用户可以对语料管理系统中的语料进行增删改查操作。最后,分析和研究深度学习在问答系统中的应用以及梯度下降算法,设计生成式问答模型和对小批量梯度下降算法进行改进,并利用大量与程序设计相关的问答对数据集采用小批量梯度下降算法和改进过后的小批量梯度下降算法来训练生成式问答模型,从实验结果来看,采用改进过后的小批量梯度下降算法训练出来的生成式问答模型为用户提出的问题生成的答案的准确度要高一些。与此同时,将语音识别和生成式问答模型应用到智能语音问答系统当中,基于Android操作系统开发了智能语音问答系统,用于对用户提供问答服务。
嘈杂环境多说话人语音分离及识别技术研究
这是一篇关于语音增强,语音分离,语音识别,深度学习的论文, 主要内容为语音识别就是把说话人的声音转化为符合语法规则的文本信息。高准确性和鲁棒性的语音识别是构建智能机器人听觉系统、实现人机交互的重要自然语言处理技术。近年来深度学习的蓬勃发展显著提升了语音识别的准确性和鲁棒性,但在嘈杂环境多说话人场景下,声音信号存在噪声衰减、混叠干扰等降质现象,因此,研究嘈杂环境下语音信号增强、多说话人高准确性语音分离和语音识别等关键技术,对推动语音识别技术向满足实际应用场景需要的纵深方向发展意义突出。本文的研究内容如下:(1)嘈杂环境时频域感知复频谱子-全频带语音增强技术研究。针对嘈杂环境声音信号易被噪声降质、子-全频带模型既能有效捕捉声音信号的全频带上下文频率信息又能获取信号平稳性的局部频谱信息但缺乏语音信号时频域能量分布表示能力的问题,提出将能够有效捕捉语音信号分布信息的时频感知模块融入到复频谱子-全频带模型中,从而构建出一种新的时频域感知复频谱子-全频带语音增强模型。对比实验结果表明,时频域感知复频谱子-全频带语音增强模型具有明显的语音增强性能。(2)卷积增强外部注意力时域语音分离技术研究。借鉴DANet的双路径扩展外部注意力形成空间和通道双路外部注意力,并结合卷积增强模块、卷积位置编码模块提出一种新的卷积增强外部注意力模块。在此基础上,将卷积增强外部注意力模块应用于Tas Net的编码器-解码器结构中实现对语音信号的建模,从而提出了一种卷积增强外部注意力的时域语音分离模型(Ex Con Net)。对比实验表明,Ex Con Net模型具有较小的参数量和更好的多说话人语音分离效果。(3)交互式特征融合的CTC/Attention语音识别技术研究。提出改进SA-Conv共享编码器的ACmix-CTC/Attention语音识别模型,提高了干净语音识别的性能;针对嘈杂环境语音识别的场景,采用交互式特征融合的方式对CTC/Attention语音识别模型及语音增强模块进行联合训练来提高含噪语音识别的鲁棒性和准确性。干净数据集上的实验表明所提语音识别模型表现出更低的词错误率;含噪数据集上的测试也表明交互式特征融合的CTC/Attention语音识别对于嘈杂环境语音识别的有效性。
基于语音识别的政府服务热线系统设计与实现
这是一篇关于邯郸方言,语音识别,连接时序分类,Spring Boot,政府服务热线系统的论文, 主要内容为近年,国内各市先后开通了政府服务热线,目前已成为政民互动最重要的平台。面对日益增多的话务量,系统出现接通率下降、诉求回应不及时等问题。随着人工智能的发展,语音识别技术的日渐成熟,方言识别也有了一定的研究结果。以河北省邯郸市为例,本文设计并实现了基于语音识别技术的新一代政府服务热线系统,主要研究内容如下:(1)设计并建立邯郸方言语音语料库。分析研究邯郸方言结构和发音规则,设计文本语料,征集80名邯郸常住居民录制音频,对音频进行清洗、筛选、核对、标注,最后形成了31.4小时的邯郸方言语音语料库,按照10:1:1组成训练集、测试集和验证集用于模型训练。(2)针对邯郸方言识别,采用端到端语音识别方法,搭建基于卷积神经网络的连接时序分类(Connectionist Temporal Classification,CTC)运算准则声学模型。叠加多层一维卷积网络,训练得到基准模型并进行优化。为减少梯度弥散,使用融合门控卷积单元的网络GLU激活,加快收敛;为防止低资源语言训练模型过拟合,在卷积模块加入Dropout层,优化声学模型;针对低资源模型性能不佳问题,提出数据增强、增加基于RNN的外部语言模型,增强模型识别率和泛化性,并进行了实验验证。(3)设计并实现基于语音识别的新一代政府服务热线系统。语音识别模块采用B/S结构,使用Python语言、Vue框架实现,部署My SQL存储体系,识别的文字保存到数据库自动生成工单。政府热线系统的后台,使用Java语言,Spring Boot框架实现。系统主要实现两种工作模式:一是基于语音识别,实现市民语音实时在线识别为文字,自动生成工单;二是话务员手动生成工单,诉求席派单到承办单位。
基于语音识别的智能麻醉药品注射泵研究
这是一篇关于麻醉药品,注射泵,语音识别,操作效率,无接触治疗的论文, 主要内容为麻醉药品是麻醉室、手术室和重症监护室的基本治疗需求品。麻醉药品的给药量和给药方式决定了麻醉药品的药效,以及治疗过程中患者是否会出现“早醒”或者“深醉”等问题。医疗机构多数采用麻醉药品注射泵,通过静脉给药方式对患者进行麻醉治疗,而麻醉药品的给药量则由医护人员通过麻醉药品注射泵的操作面板手工录入注射信息决定。当医护人员操作传统麻醉药品注射泵面板手工录入注射信息时,存在录入操作复杂、误触难触率高以及操作效率低等问题。此外,医护人员对麻醉药品注射泵的操作方式有着人性化、智能化、高效化和无接触治疗方面的需求。针对传统麻醉药品注射泵手工录入方式存在的局限性以及医护人员的操作需求,基于现代语音识别技术的便捷性、高效性以及稳定性,提出了基于语音识别的智能麻醉药品注射泵系统设计方案。基于语音识别的智能麻醉药品注射泵系统主要由语音输入模块、语音唤醒模块、语音识别模块、中央控制模块和麻醉药品注射泵模块组成。语音输入模块设计了数字麦克风硬件设备,用于实现医学信息语音信号的采集功能。语音唤醒模块设计训练了唤醒模型和唤醒热词,用于实现系统的唤醒与激活功能。语音识别模块设计了特征提取单元,以及搭建训练了声学单元和语言单元,用于实现医学信息语音信号的特征提取和识别功能。中央控制模块设计了微控制器硬件设备,用于实现医学信息参数提取和注射控制信号的收发功能。麻醉药品注射泵模块设计了驱动器、电机、传感器、机械部件等硬件设备,以及设计了闭环注射控制方式,用于实现执行麻醉药品的注射任务和注射速度反馈调节功能。语音识别模块的核心设计为声学单元,其采用CNN(Convolutional Neural Network)提取医学信息语音信号的精细特征,结合CTC(Connectionist Temporal Classification)优化数据标注与对齐,降低模型计算的复杂度。实验结果表明,优化后的声学单元Res_CNN_CTC网络模型对比于声学单元Base_CNN_CTC基线网络模型在词错误率上降低了15.24%。语音识别模块的重要设计为语言单元,其采用SelfAttention机制对医学信息内的词分配不同关注度,增强语言单元的语言表达能力。实验结果表明,语言单元的识别准确率达到了91.62%。通过麻醉药品注射速度实验,验证了基于语音识别的智能麻醉药品注射泵系统用于实现麻醉注射任务的可行性。通过麻醉药品注射速度误差实验,验证了基于语音识别的智能麻醉药品注射泵系统对比于传统麻醉药品注射泵,注射速度误差降低了约1%。通过麻醉药品治疗信息录入方式的操作效率实验,验证了基于语音识别的智能麻醉药品注射泵系统语音录入医学信息,相比于传统麻醉药品注射泵手工录入注射信息,操作效率提升了约32%~46%。
互动课堂系统的设计与实现
这是一篇关于模块化课程编辑,公共组件,React,互动课堂,语音识别的论文, 主要内容为近年来,随着语文学科地位的提高,国家越来越重视语文学科的素质教育,义务教育阶段古诗文占比逐年增加。然而小学阶段,学生的阅读理解能力普遍较差,学生阅读面临着选书难、读书专注度差、读书效果差、缺乏阅读兴趣等一系列难题,同时阅读的非标准化程度高,学生对教师的依赖较高,激发学生阅读兴趣的优质教师稀缺。随着国家关于减轻学生负担的教育政策的实施,学校也需要科学利用课余时间开展适宜的阅读和文艺活动,高效阅读成为了市场的新需求。为了满足以上需求,本文开发了一款基于语音识别的互动课堂系统。系统从课程生产者和课程消费者两个角色出发,设计与实现了权限管理模块、课程生成模块、签到激励、分组对抗、游戏互动、实时弹幕等功能模块。课程生成模块构建了一套标准的互动课堂生成流程,通过模块化课程内容,标准化编辑流程,提高了课程开发效率,同时抽离多个公共组件,提高了系统的可复用性和可维护性。互动课堂创造性地把语音识别引入小学语文教学场景,实现了多种强交互体验的交互场景。交互场景包括语音回答问题生成弹幕的实时弹幕功能、基于语音识别实现的游戏互动功能。对于互动课堂系统中的语音识别技术,本文对Kaldi关键技术和语音识别的处理流程进行了详细的介绍,重点研究了Kaldi下加权有限状态转换器(WFST),分析WFST的实现以及基于WFST构建解码图的方法,并给出了在线构建WFST的方法。再通过Kaldi进行了GMM-HMM和DNN-HMM模型的搭建和训练,最后通过比较词错误率和训练时间,阐述了两模型的优缺点。互动课堂系统采用前后端分离的方式开发,前端采用React框架和Pixi.js等前端主流方式开发,服务端使用Java作为开发语言,采用SSM框架,数据存储采用My SQL数据库,前后端通过AJAX交互,接口统一设计成RESTful风格。
基于Android的路况信息查询系统的设计
这是一篇关于Android,语音识别,Web服务器,查询系统,路况信息的论文, 主要内容为随着国家城市化进程加快,城市人口不断增加,导致城市机动车数量激增,城市交通问题也日益突出。城市交通问题已经得到国家的高度重视,并逐步建设大城市智能交通系统。城市交通不畅给人们的出行带来安全隐患的同时也降低了出行效率,所以需要这样一种系统平台将各种途径收集到的路况信息通过网络将这些信息提供给需要的人。 在这样的背景下,本文设计了一种由Android客户端和Tomcat服务器构件的具有语音识别输入功能的路况信息查询系统。针对该系统的客户端和服务器端两方面进行了分析和设计,论文的主要研究内容如下: 利用Android系统的界面组件,完成了客户端操作界面的设计。分析了语音识别原理后,采用科大讯飞语音识别库,通过对其接口的调试实现语音识别功能,并在3G或WIFI网络的支持下通过HTTP协议将语音识别结果以Get方法发送到服务器端,实现语音识别输入功能。 完成系统的需求分析后,确定系统采用B/S结构。分析Tomcat服务器的特性后,采用Tomcat搭建服务器,利用JSP技术设计查询页面、登录和注册页面完成动态网页的设计,并采用JDBC技术与Mysql数据库连接,实现数据的传输。
基于机器学习的钢铁企业决策支持系统设计与实现
这是一篇关于决策支持系统,机器学习,语音识别,双向长短期记忆网络,知识图谱的论文, 主要内容为人工智能从诞生以来,改变了我们的生活方式,也正在加速进入改变生产方式的阶段。机器学习是使计算机具备智能的关键途径,其发展的首要驱动力是如何快速准确地获取知识。目前,钢铁企业决策支持系统针对海量数据分析缺乏及时性、有效性,缺少自动吸纳管理人员智慧、可便捷交互的知识库,因此本文将机器学习技术应用在其中,重点对产品质量领域智能预测应用进行研究,针对智能预测所生成的知识,应用语音识别、知识图谱实现智能交互。本文完成了基于机器学习的钢铁企业决策支持系统的功能设计实现,采用数据处理、数据分析、数据交互三层架构,在数据分析层,首先建立产品质量(成分、性能等)预测等智能预测模型,使用包含所有特征的海量历史数据作为训练集测试预测模型,计算其预测精度,然后选取最优模型和算法。在数据交互层,应用双向长短期记忆网络语音识别系统,识别用户的分析需求描述,基于智能预测模型推断所得的知识,构建了一个简单的知识图谱,通过智能交互方式,展示智能预测结果。本文基于不同数据集对智能预测、智能交互型进行了实验。智能预测以合金性能预测模型作为试点,对比广义线性模型、随机森林、XGBoost等在实际数据集上的准确率,智能预测选择具备显著优势的XGBoost模型使其学习能力达到最优。基于双向长短期记忆网络搭建语音识别模型,并针对复杂应用场景对其进行优化。在本文实验条件下,预测模型和语音识别的准确度分别达到85%、90%左右。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码工厂 ,原文地址:https://bishedaima.com/lunwen/46253.html