基于深度强化学习的动态推荐系统
这是一篇关于深度强化学习,动态推荐系统,马尔科夫决策过程,图神经网络,推荐智能体的论文, 主要内容为推荐系统是工业界和学术界处理信息过载的主要手段,其通过分析用户和所推荐项目间的关系,或利用已有用户历史行为记录,帮助用户从海量数据中寻找可能感兴趣的信息。近几十年,推荐系统技术得到了长足发展,基于协同过滤、机器学习、深度学习的模型均已在现实生活中得到了广泛应用,但这些模型表达能力有限,且每次推荐都是按照固定策略,无法适应时刻变化动态的用户兴趣。其次,这些静态模型将每次推荐视为独立过程,没有考虑用户行为的连续性,无法对信息进行充分利用。推荐过程本质上是推荐系统与用户交互的过程,其具有鲜明的交互性。深度强化学习技术因其良好的表达能力与决策能力,被广泛应用于机器人控制、自然语言处理等领域上。近几年,研究人员将深度强化学习与推荐系统相结合,构建了可以在与用户连续交互过程中不断优化推荐策略的动态推荐模型。这些模型虽然克服了静态推荐算法无法处理的用户动态兴趣变化的缺陷,但仍面临训练不稳定、样本利用率低等问题。本文针对基于深度强化学习的动态推荐系统展开研究,主要工作如下:1.提出一种基于SoftActor-Critic架构的稳定动态推荐方法。该方法首先基于用户长期与短期兴趣建模推荐系统的马尔科夫决策过程,使强化学习算法能够根据用户高分反馈行为积累用户长期稳定的兴趣偏好,在此基础上,结合循环神经网络设计了两个编码器来分别获取用户短期与长期兴趣的特征表达。最后,基于强化学习中的Actor-Critic架构设计整个框架,并引入鲁棒性强的深度强化学习算法SoftActor-Critic来训练模型。与已有算法相比,该方法在离线与在线的推荐场景下稳定性更好、推荐准确性更高。2.提出了一种基于Dyna框架与图卷积网络的动态推荐算法。深度强化学习算法应用在推荐系统上往往面临样本利用率低、用户反馈数据稀疏的问题。知识图谱作为辅助信息能提供丰富语义信息,可有效缓解用户反馈数据稀疏问题,该方法利用知识图谱来建模动态推荐系统的马尔可夫决策过程,并结合图神经网络构建强化学习智能体,以此来挖掘知识图谱中项目间的相关性,缓解样本利用率低的问题。另外,为了减少与真实用户的交互,该方法还引入强化学习中的Dyna框架来进一步提高样本利用率。通过仿真在线实验,证明了该方法样本利用率更高,在面临用户反馈数据稀疏能获得更好的推荐性能。3.提出了一种多智能体强化学习的动态推荐算法。该方法将推荐过程分为基于用户与基于用户群体的两个马尔科夫决策过程,并利用深度强化学习中的深度Q学习算法分别对其建模。模型拥有两个深度Q网络结构的智能体,关联全局的深度Q网络掌握着实时热点的变化,掌控当前流行趋势;相关用户个人的局部深度Q网络记录了用户个人兴趣的变化,获取当前用户个性化偏好。在用户冷启动的实验环境下的实验结果验证了所提出方法的能够有效提高推荐精度。
基于区块链的线上教育管理系统的设计与实现
这是一篇关于区块链,共识机制,奖励函数,自私挖矿,马尔科夫决策过程的论文, 主要内容为互联网+模式的飞速发展,为线上教育聚集更多优质资源提供了便利条件,使其摆脱了时间和空间的束缚。近年来,尤其是新冠疫情以来,相较于线下教育的举步维艰,线上教育备受人们青睐。然而,随着线上教育系统的广泛应用,其弊端也日益突显。中心化管理和单点存储模式使得用户信息易被篡改或丢失,用户和系统之间缺乏信任。因此,亟需构建一种信任方案保障线上教育系统的可信度。区块链具有不可篡改和易溯源等特性,符合线上教育系统在信任方面的基本需求。与此同时,在区块链系统中建立良好的信任生态,依赖于两个维度:内部驱动力和外部抵抗力。前者表示内部用户使用系统的动机,动机越强,用户和系统间的信任度越高。后者为系统抵抗外部攻击的能力,抵抗力越强,用户对系统的信任程度就越高。最后,基于上述两个维度,设计并实现了基于区块链的可信线上教育系统,主要包括信任保障、激励机制和价值流转等功能。本文的主要研究内容包括以下几个方面:(1)提出了一种奖励函数:津贴奖励函数,以增强系统内部驱动力。在区块链系统中,用户内部驱动力来源于经济激励,而经济激励又依赖于奖励函数。针对区块链系统现有奖励函数不能满足公平性和激励相容性的问题,本文提出了一种新的奖励函数。同时,利用基尼系数评估奖励函数的公平性,定义奖励率证明奖励函数的激励相容性。仿真结果表明,津贴奖励函数的基尼系数更接近于0,具备更好的公平性。另一方面,针对奖励率的理论分析表明,津贴奖励函数的激励相容性更强。这些特性可以增强用户使用区块链系统的动机,构建系统良好的信任生态。(2)提出了一种自私挖矿攻击算法,选择抵御该攻击的区块链框架,增强系统外部抵抗力。针对公有链系统的无许可特性和工作量证明的挖矿奖励机制,本文设计了一种通用自私挖矿模型,结合马尔科夫决策过程,提出一种自私挖矿攻击算法。该算法研究了外部攻击者能力和区块链系统稳定性之间的关系。仿真结果表明,本文提出的自私挖矿攻击算法使得阈值降低到0.075,更大程度破坏了比特币系统的稳定性。因此,选择抵御该攻击的区块链框架以增强系统外部抵抗力,能够提高用户对系统的信任度。(3)设计并实现了一个区块链线上教育系统。基于信任生态的两个维度,本文利用津贴奖励函数构造区块链系统激励机制,选择能够抵抗自私挖矿攻击的FISCO BCOS区块链作为底层框架,采用Vue.js前端框架和Django后端框架设计了一个区块链线上教育系统。系统实现了用户管理、信息查询、信任保障、激励机制和价值流转等功能,保障了用户和系统间的良好信任基础。
基于深度强化学习的动态推荐系统
这是一篇关于深度强化学习,动态推荐系统,马尔科夫决策过程,图神经网络,推荐智能体的论文, 主要内容为推荐系统是工业界和学术界处理信息过载的主要手段,其通过分析用户和所推荐项目间的关系,或利用已有用户历史行为记录,帮助用户从海量数据中寻找可能感兴趣的信息。近几十年,推荐系统技术得到了长足发展,基于协同过滤、机器学习、深度学习的模型均已在现实生活中得到了广泛应用,但这些模型表达能力有限,且每次推荐都是按照固定策略,无法适应时刻变化动态的用户兴趣。其次,这些静态模型将每次推荐视为独立过程,没有考虑用户行为的连续性,无法对信息进行充分利用。推荐过程本质上是推荐系统与用户交互的过程,其具有鲜明的交互性。深度强化学习技术因其良好的表达能力与决策能力,被广泛应用于机器人控制、自然语言处理等领域上。近几年,研究人员将深度强化学习与推荐系统相结合,构建了可以在与用户连续交互过程中不断优化推荐策略的动态推荐模型。这些模型虽然克服了静态推荐算法无法处理的用户动态兴趣变化的缺陷,但仍面临训练不稳定、样本利用率低等问题。本文针对基于深度强化学习的动态推荐系统展开研究,主要工作如下:1.提出一种基于SoftActor-Critic架构的稳定动态推荐方法。该方法首先基于用户长期与短期兴趣建模推荐系统的马尔科夫决策过程,使强化学习算法能够根据用户高分反馈行为积累用户长期稳定的兴趣偏好,在此基础上,结合循环神经网络设计了两个编码器来分别获取用户短期与长期兴趣的特征表达。最后,基于强化学习中的Actor-Critic架构设计整个框架,并引入鲁棒性强的深度强化学习算法SoftActor-Critic来训练模型。与已有算法相比,该方法在离线与在线的推荐场景下稳定性更好、推荐准确性更高。2.提出了一种基于Dyna框架与图卷积网络的动态推荐算法。深度强化学习算法应用在推荐系统上往往面临样本利用率低、用户反馈数据稀疏的问题。知识图谱作为辅助信息能提供丰富语义信息,可有效缓解用户反馈数据稀疏问题,该方法利用知识图谱来建模动态推荐系统的马尔可夫决策过程,并结合图神经网络构建强化学习智能体,以此来挖掘知识图谱中项目间的相关性,缓解样本利用率低的问题。另外,为了减少与真实用户的交互,该方法还引入强化学习中的Dyna框架来进一步提高样本利用率。通过仿真在线实验,证明了该方法样本利用率更高,在面临用户反馈数据稀疏能获得更好的推荐性能。3.提出了一种多智能体强化学习的动态推荐算法。该方法将推荐过程分为基于用户与基于用户群体的两个马尔科夫决策过程,并利用深度强化学习中的深度Q学习算法分别对其建模。模型拥有两个深度Q网络结构的智能体,关联全局的深度Q网络掌握着实时热点的变化,掌控当前流行趋势;相关用户个人的局部深度Q网络记录了用户个人兴趣的变化,获取当前用户个性化偏好。在用户冷启动的实验环境下的实验结果验证了所提出方法的能够有效提高推荐精度。
基于区块链的线上教育管理系统的设计与实现
这是一篇关于区块链,共识机制,奖励函数,自私挖矿,马尔科夫决策过程的论文, 主要内容为互联网+模式的飞速发展,为线上教育聚集更多优质资源提供了便利条件,使其摆脱了时间和空间的束缚。近年来,尤其是新冠疫情以来,相较于线下教育的举步维艰,线上教育备受人们青睐。然而,随着线上教育系统的广泛应用,其弊端也日益突显。中心化管理和单点存储模式使得用户信息易被篡改或丢失,用户和系统之间缺乏信任。因此,亟需构建一种信任方案保障线上教育系统的可信度。区块链具有不可篡改和易溯源等特性,符合线上教育系统在信任方面的基本需求。与此同时,在区块链系统中建立良好的信任生态,依赖于两个维度:内部驱动力和外部抵抗力。前者表示内部用户使用系统的动机,动机越强,用户和系统间的信任度越高。后者为系统抵抗外部攻击的能力,抵抗力越强,用户对系统的信任程度就越高。最后,基于上述两个维度,设计并实现了基于区块链的可信线上教育系统,主要包括信任保障、激励机制和价值流转等功能。本文的主要研究内容包括以下几个方面:(1)提出了一种奖励函数:津贴奖励函数,以增强系统内部驱动力。在区块链系统中,用户内部驱动力来源于经济激励,而经济激励又依赖于奖励函数。针对区块链系统现有奖励函数不能满足公平性和激励相容性的问题,本文提出了一种新的奖励函数。同时,利用基尼系数评估奖励函数的公平性,定义奖励率证明奖励函数的激励相容性。仿真结果表明,津贴奖励函数的基尼系数更接近于0,具备更好的公平性。另一方面,针对奖励率的理论分析表明,津贴奖励函数的激励相容性更强。这些特性可以增强用户使用区块链系统的动机,构建系统良好的信任生态。(2)提出了一种自私挖矿攻击算法,选择抵御该攻击的区块链框架,增强系统外部抵抗力。针对公有链系统的无许可特性和工作量证明的挖矿奖励机制,本文设计了一种通用自私挖矿模型,结合马尔科夫决策过程,提出一种自私挖矿攻击算法。该算法研究了外部攻击者能力和区块链系统稳定性之间的关系。仿真结果表明,本文提出的自私挖矿攻击算法使得阈值降低到0.075,更大程度破坏了比特币系统的稳定性。因此,选择抵御该攻击的区块链框架以增强系统外部抵抗力,能够提高用户对系统的信任度。(3)设计并实现了一个区块链线上教育系统。基于信任生态的两个维度,本文利用津贴奖励函数构造区块链系统激励机制,选择能够抵抗自私挖矿攻击的FISCO BCOS区块链作为底层框架,采用Vue.js前端框架和Django后端框架设计了一个区块链线上教育系统。系统实现了用户管理、信息查询、信任保障、激励机制和价值流转等功能,保障了用户和系统间的良好信任基础。
基于深度强化学习的动态推荐系统
这是一篇关于深度强化学习,动态推荐系统,马尔科夫决策过程,图神经网络,推荐智能体的论文, 主要内容为推荐系统是工业界和学术界处理信息过载的主要手段,其通过分析用户和所推荐项目间的关系,或利用已有用户历史行为记录,帮助用户从海量数据中寻找可能感兴趣的信息。近几十年,推荐系统技术得到了长足发展,基于协同过滤、机器学习、深度学习的模型均已在现实生活中得到了广泛应用,但这些模型表达能力有限,且每次推荐都是按照固定策略,无法适应时刻变化动态的用户兴趣。其次,这些静态模型将每次推荐视为独立过程,没有考虑用户行为的连续性,无法对信息进行充分利用。推荐过程本质上是推荐系统与用户交互的过程,其具有鲜明的交互性。深度强化学习技术因其良好的表达能力与决策能力,被广泛应用于机器人控制、自然语言处理等领域上。近几年,研究人员将深度强化学习与推荐系统相结合,构建了可以在与用户连续交互过程中不断优化推荐策略的动态推荐模型。这些模型虽然克服了静态推荐算法无法处理的用户动态兴趣变化的缺陷,但仍面临训练不稳定、样本利用率低等问题。本文针对基于深度强化学习的动态推荐系统展开研究,主要工作如下:1.提出一种基于SoftActor-Critic架构的稳定动态推荐方法。该方法首先基于用户长期与短期兴趣建模推荐系统的马尔科夫决策过程,使强化学习算法能够根据用户高分反馈行为积累用户长期稳定的兴趣偏好,在此基础上,结合循环神经网络设计了两个编码器来分别获取用户短期与长期兴趣的特征表达。最后,基于强化学习中的Actor-Critic架构设计整个框架,并引入鲁棒性强的深度强化学习算法SoftActor-Critic来训练模型。与已有算法相比,该方法在离线与在线的推荐场景下稳定性更好、推荐准确性更高。2.提出了一种基于Dyna框架与图卷积网络的动态推荐算法。深度强化学习算法应用在推荐系统上往往面临样本利用率低、用户反馈数据稀疏的问题。知识图谱作为辅助信息能提供丰富语义信息,可有效缓解用户反馈数据稀疏问题,该方法利用知识图谱来建模动态推荐系统的马尔可夫决策过程,并结合图神经网络构建强化学习智能体,以此来挖掘知识图谱中项目间的相关性,缓解样本利用率低的问题。另外,为了减少与真实用户的交互,该方法还引入强化学习中的Dyna框架来进一步提高样本利用率。通过仿真在线实验,证明了该方法样本利用率更高,在面临用户反馈数据稀疏能获得更好的推荐性能。3.提出了一种多智能体强化学习的动态推荐算法。该方法将推荐过程分为基于用户与基于用户群体的两个马尔科夫决策过程,并利用深度强化学习中的深度Q学习算法分别对其建模。模型拥有两个深度Q网络结构的智能体,关联全局的深度Q网络掌握着实时热点的变化,掌控当前流行趋势;相关用户个人的局部深度Q网络记录了用户个人兴趣的变化,获取当前用户个性化偏好。在用户冷启动的实验环境下的实验结果验证了所提出方法的能够有效提高推荐精度。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码码头 ,原文地址:https://bishedaima.com/lunwen/52684.html