给大家推荐5篇关于Q学习的计算机专业论文

今天分享的是关于Q学习的5篇计算机毕业论文范文, 如果你的论文涉及到Q学习等主题,本文能够帮助到你

智能仓储系统中机器人优化配置及动态路径规划研究

这是一篇关于智能仓储,优化配置,动态路径规划,SOQN,Q学习的论文, 主要内容为互联网的发展极大地推动了电子商务的普及,为电商物流带来了巨大的挑战。虽然我国物流行业发展迅速,但是还无法满足实际需求,在物流智能化、信息化水平,人力成本上还需要继续追赶发达国家物流行业的脚步。仓储作为电商物流中的重要环节,影响着整个物流流程的效率。如何提升系统的效率,减小系统成本是仓储系统中亟待解决的关键问题。近年来,以亚马逊“Kiva”系统为代表的智能仓储系统以其智能化的运作方式迅速成为电商仓储青睐的新仓储模式。该类系统使用机器人作为取货,运货的媒介,首次实现“货到人”的货物运输模式,仓库信息、运作流程全部采用数字化管理的方式,实现系统的统一调配。在该系统中,机器人作为重要组成部分,其数量配置和使用的路径规划算法对系统效率及成本都有较大影响。在数量优化配置问题中,建立合适的仓库模型和目标函数是难点所在;在路径规划问题中,需要使用动态规划算法应对紧急订单问题,这对算法的效率提出了更高的要求。本文针对上述问题进行研究,首先介绍了本文的研究背景,接着根据调研的文献内容,总结了国内外关于仓储配置,动态路径规划的相关研究,最后介绍了本文使用模型、算法的理论基础,为后文做铺垫。针对机器人优化配置问题,为了能够更好地模拟订单与机器人相匹配的过程,本文创新地采用两阶段SOQN网络对系统进行建模。模型求解过程中通过状态转移图、全局平衡方程求解系统稳态概率。通过稳态概率即可求解出单个订单在系统中的平均等待时间,其中包括在外部队列的等待时间和在分拣站台处的等待时间,基于此设计了目标函数。最后在仿真中验证了模型与机器人最优配置求解的准确性。实验显示本文研究的理论分析模型能够较好地对真实场景进行模拟并指导仓库进行机器人数量配置。针对机器人动态路径规划问题,使用了基于分层策略的动态规划算法,并使用双智能体Q学习算法实现了相向冲突的有效规避。分层规划即为下层通过单智能体Q学习算法实现静态路径规划,实现静态障碍物的成功避免;上层是动态路径规划算法,采用基于冲突分类的避障策略,对于非相向冲突进行停止等待避障,相向冲突采用双智能体Q学习算法结合保护区域机制进行规避。仿真证明本文算法对于系统效率有一定的提升,保护区域机制对于减少机器人行驶路程有较大的贡献。

智能仓储系统中机器人优化配置及动态路径规划研究

基于深度强化学习的股票和商业数据分析

这是一篇关于Q学习,布莱克-利特曼模型,深度Q网络,长短期记忆网络,投资组合,推荐系统的论文, 主要内容为社会发展的需求是生产力进步的必要因素,为解决现实问题,一大批新兴领域的研究逐渐进入大众视野,为首的就是量化金融和商业数据分析。它们都基于数学统计和计算机的相关知识,在金融和商业市场领域大放异彩,是多学科交叉应用的典型范例。强化学习作为机器学习模型的一种,同样也是数学统计和计算机结合的产物,其学习过程类似于人类学习新知,通过不断地试错以进行学习,经过一系列反馈后往往能优化结果,从而为现实问题制定出最优的建议或策略,让复杂的金融和商业问题变得迎刃而解。本文主要研究了深度强化学习(Deep Reinforcement Learning)在股票和商业数据分析中的应用,更进一步,研究了Q学习(Q-Learning)在投资组合中的应用以及深度Q网络(Deep Q Network,DQN)在推荐系统中的应用。Q学习在结合非线性的布莱克-利特曼模型(Black-Litterman Model,BLM)之后,利用简单移动平均(Simple Moving Average,SMA)信号和指数加权移动平均(Exponentially Weighted Moving Average,EWMA)信号,可以很好地分析道琼斯工业平均指数(Dow Jones Industrial Average,DJIA)和标准普尔500指数(Standard&Poor’s500,S&P 500)经历完整经济上行和下行周期时的走势,尤其是在利用指数加权移动平均信号分析标准普尔500指数的30组公司的股票市值时,该模型几乎能完美拟合。深度Q网络在结合长短期记忆(Long-Short Term Memory,LSTM)网络之后,利用长短期记忆网络控制信息流的门控优势替换了深度Q网络的卷积神经网络,解决了长序列训练过程中的梯度消失和梯度爆炸问题,也弥补了真实场景中传统推荐系统迭代优化不足的问题。在分析阿里巴巴的用户行为数据时,我们发现该方法不仅可以不断地迭代用户的反馈以获得更准确的推荐,还可以改善用户在网站使用过程中的体验。

基于深度强化学习的股票和商业数据分析

基于微服务架构和云计算的电力系统调控软件任务调度关键技术研究

这是一篇关于任务调度,重要程度,效用函数,抢占式调度,Q学习的论文, 主要内容为目前,云计算技术已经广泛应用于电力系统中,各种电网调控软件陆续部署上云,以实现计算资源的弹性伸缩。然而,随着云环境中调控软件的数量不断增加,云内计算任务的数量也在不断增加,而处理任务的计算资源通常有限,一些任务由于不能获得资源而被延迟处理。尤其是在电网发生故障时,大量与故障处理相关的重要任务涌入云环境,导致一些重要任务无法按时完成,从而造成经济损失甚至安全事故。因此,设计一种高效的任务调度机制,使云环境中的海量任务得到合理的资源分配,对于保障电力系统的安全稳定运行具有重要意义。本文针对云计算模式下电力系统调控软件的任务调度问题,着重探讨能解决这一问题的任务调度模型、在线调度算法及调度性能提升方法。主要研究工作如下:(1)提出一种考虑调控任务多重属性的调度模型。具体包括建立考虑独立任务和工作流的任务模型;建立考虑服务实例与物理机资源约束的资源模型;建立考虑固有重要程度、松弛度和是否处于关键路径三项因素的任务重要程度模型,设计用于评估任务重要程度的效用函数。此外,设计了针对任务处理时长和资源使用量两类数据的数据收集方法,为任务调度提供数据支撑。(2)基于(1)中的任务调度模型和调控业务的需求,提出一种考虑任务重要程度动态变化的在线调度算法。首先,提出一种适用于电力系统调控软件的调度器框架;然后,提出了一种包含正常分配、资源预留、抢占式调度三种调度机制的在线调度算法;接着,提出了用于评估算法性能的五项指标;最后,提出一种基于统计学习的效用函数权重初值选取方法。通过一个电力系统调控软件对所提算法进行了验证,仿真结果表明,与先来先服务算法、最早截止时间优先算法、最小松弛度优先算法、固定优先级调度算法四种在线调度算法相比,所提算法在各项性能指标上均表现出显著优势,可以实现高效任务调度。(3)为提升(2)中所提调度算法的性能,提出一种基于Q学习的调度性能提升方法,其中Q学习是强化学习中的一种时序差分方法,适用于实时性较高且环境模型未知的场景。建立任务调度问题的强化学习模型,具体包括将效用函数的权重系数选取表示为动作,将当前待处理任务的特征表示为状态,建立了用于评估动作效果的回报函数。设计了基于Q学习的动作迭代过程,提出了可以实现权重系数离线学习与在线更新的调度器架构。通过一个电力系统调控软件对所提调度性能提升方法进行了验证,仿真结果表明,该方法可以有效提升调度性能,各项性能指标均得到一定程度的提高。

本文内容包括但不限于文字、数据、图表及超链接等）均来源于该信息及资料的相关主题。发布者：毕设向导，原文地址：https://bishedaima.com/lunwen/54792.html