7个研究背景和意义示例,教你写计算机多臂赌博机论文

今天分享的是关于多臂赌博机的7篇计算机毕业论文范文, 如果你的论文涉及到多臂赌博机等主题,本文能够帮助到你

基于多行为隐式反馈的在线推荐方法研究

这是一篇关于多行为隐式反馈,推荐系统,多臂赌博机,汤普森采样,探索与利用的论文, 主要内容为推荐系统是目前用来缓解信息过载的常用技术。个性化推荐系统依赖于用户的行为反馈数据,包括显式反馈和隐式反馈。诸如点击和收藏之类的隐式反馈由于其收集成本低廉,数据量大并且含有更加丰富的隐藏信息而被广泛研究并应用于推荐系统中,其应用的难点在于对用户行为的解释,隐式反馈的解释高度依赖于各应用领域。本文将电商领域基于多行为隐式反馈的在线推荐问题形式化为多臂赌博机问题,提出了一种基于多臂赌博机的在线推荐模型。该模型主要包含三个模块:环境、动作(臂)集和bandit算法。通过bandit算法与环境的交互不断优化策略,以实现最大化累积奖励,为用户提供在线推荐服务。bandit算法是模型的核心模块,本文提出基于多行为隐式反馈的汤普森采样算法(MIF-TS),该算法主要根据臂的预期奖励分布进行随机采样,选择最佳臂产生推荐。本文在三个公共数据集上验证了所提出的模型和算法的有效性,并讨论了影响模型的因素以及提出模型在冷启动环境下的差异化推荐策略。实验结果表明,所提模型和算法能有效利用用户多行为隐式反馈获取用户偏好,解决推荐中的探索/利用权衡问题;并且模型在冷启动环境下具有鲁棒性,采用预训练的方式进一步优化了冷启动下的推荐效果。本文的主要工作和创新点归纳如下:(1)提出了一种基于多臂赌博机的在线推荐模型,该模型具有两个独特的特征。首先,使用根据用户行为和产品属性筛选的产品子集而非单个产品作为臂,这不仅避免了大规模臂的复杂性,还能充分利用上下文信息获取用户偏好,使得推荐具有可解释性。其次,与常见的伯努利奖励设置不同,本文将用户的多行为反馈分为强交互行为和弱交互行为,并赋予它们不同权重的奖励,用以更新臂的预期奖励分布。此外,还提出了结合用户当前偏好和历史偏好的不同臂推荐策略以适用于不同场景。(2)提出了基于多行为隐式反馈的汤普森采样算法MIF-TS。算法假设每个臂的预期奖励服从独立的Beta分布,使用多行为隐式反馈更新后验分布,以使臂的预期奖励分布逐渐接近真实的平均奖励。从后验分布中进行随机采样,选择采样值最大的臂进行推荐,有效平衡了探索与利用,保证了推荐的准确性和多样性。(3)本文在三个具有不同特征的公共数据集上进行了实验,评估了所提模型和算法的性能,深入分析了模型中的几个重要影响因素,并探讨了该模型处理冷启动问题的能力。

预算受限和奖励再利用的多臂赌博机研究

这是一篇关于多臂赌博机,奖励再利用,预算,置信界,遗传算法的论文, 主要内容为多臂赌博机问题是强化学习的一个重要分支,体现序列决策中探索与利用的两难问题。近年来多臂赌博机一直备受青睐,被广泛应用于频谱分配、推荐系统、金融投资、医疗试验和用户招募等领域。以往的研究都是将多臂赌博机的预算设置为固定的情况,适用于持有资源有限且不变的场景。然而在很多实际场景中,预算值会随时间发生变化,并且与以往决策中所获得的反馈有关。针对上述问题,考虑到持有预算随前期所做的选择而变化的情况,文中提出预算受限和奖励再利用的多臂赌博机模型。在该模型中,智能体每一轮的实时预算都会随前一轮获得的奖励发生变化,称之为奖励再利用,其中奖励值由前一轮所选择的动作决定。智能体的目标就是在每一轮的实时预算限制下,最大化最终获得的奖励总和,或最小化累积遗憾值。针对所提模型,文中考虑奖励随机代价固定和代价随机奖励随机的两种情况,主要研究工作如下:(1)基于奖励随机代价固定的预算受限和奖励再利用的多臂赌博机模型。本文首先对其进行具体建模,然后提出融合遗传算法和置信上界策略的UCB-GA算法。算法充分利用赌博机的反馈信息,使用臂的经验平均奖励同时设计探索因子对臂进行评估,即置信上界策略。采用遗传算法选择拉臂序列,达到探索和利用的平衡。该算法可以与主流的预算受限多臂赌博机算法相较量,实验仿真结果证明了算法的有效性。无论多臂赌博机的臂数和奖励服从的分布如何,算法的遗憾值都是最低的。(2)基于代价随机奖励随机的预算受限和奖励再利用的多臂赌博机模型。同样对该情况进行具体建模,提出基于实时预算和剩余轮数的UCB-BT算法。算法为每个臂定义一个奖励密度,使用置信上界值估计臂的奖励期望,置信下界值估计臂的代价期望,以此计算奖励密度进而评估臂的好坏。在选取拉臂动作时,先根据实时预算和剩余轮数进行预分配,实际拉取时采取贪婪策略,依次拉取预分配里的臂直到预算不够,以实现预算的最大效用。相比于其他几种预算限制多臂赌博机算法,所提算法的遗憾值最低。

基于图神经网络和强化学习的交互式推荐系统研究

这是一篇关于交互式推荐系统,多臂赌博机,深度强化学习,图神经网络的论文, 主要内容为互联网上日益增加的信息在极大程度丰富人们生活的同时,也给用户筛选感兴趣的信息带来了挑战,即带来了“信息过载”问题。由于缓解“信息过载”问题的能力,推荐技术已经成为了支撑大数据智能的关键技术之一。近年来,随着抖音等移动应用的广泛使用,交互式推荐系统备受关注。与传统的推荐系统将推荐问题建模为一步预测任务不同,交互式推荐系统通常将推荐问题建模为多步决策任务,交互式推荐系统的目标是进行长期规划,以提升整个推荐序列的收益。而强化学习利用多步智能体-环境交互学习行动策略,以优化长期收益,非常适合解决交互式推荐问题。在推荐问题下,由于大量的数据是图结构的,以及图神经网络在建模图数据的高阶连接关系的有效性,大量的推荐系统使用图神经网络提升推荐性能。本文旨在结合图神经网络以提升基于强化学习的交互式推荐系统的性能。具体来说,本论文的主要贡献和创新点如下:(1)在课程推荐领域,为了充分利用课程的语义和课程之间的关系,本文提出一种课程语义和关系感知的交互式课程推荐算法SRACR,该算法使用潜在狄利克雷分配(LDA)提取课程语义并使用图嵌入学习方法(Trans E)提取课程关系,然后将课程语义和课程关系作为课程的上下文特征,使用上下文多臂赌博机算法完成用户兴趣的利用与探索的平衡,以完成交互式课程推荐。在一个真实教育数据集上的实验表明,所提出的SRACR优于已有的交互式课程推荐方案。(2)在课程推荐领域,已有的基于深度强化学习的交互推荐模型忽略课程与其他实体之间的关系,无法准确建模学生兴趣。为了解决以上问题,本文提出一种异构图增强的交互式课程推荐方案HGCR,该方案首先利用课程包含概念关系以及老师讲授课程关系构造异构图,然后使用图注意力网络完成异构图上实体表征的多跳传播与聚合,从而得到异构图增强的课程表征,同时利用用户的正反馈课程和负反馈课程对用户兴趣进行建模,得到高质量的用户兴趣表征,最后将用户兴趣表征作为状态,利用双绝斗深度Q网络(Double Dueling Deep Q Network,DDDQN)完成交互式课程推荐。两个真实教育数据集上大量的实验表明了HGCR优于现有的交互式课程推荐方案。(3)在电子商务环境中,已有的基于深度强化学习的交互式推荐方案在推荐的初期不能准确的捕捉用户的兴趣,即这些方案遭受用户冷启动问题,同时已有的方案忽略用户之间的高阶社交关系,这可能导致次最优推荐。为了以上问题,本文提出了一种基于社交图神经网络的交互式商品推荐方案SGNR,该方案使用用户的正负反馈对用户的兴趣进行建模,同时利用图注意力网络在社交网络上建模用户多跳社交影响力传播,从而得到用户的多跳社交影响力向量,并融合用户社交影响力向量和用户兴趣作为用户状态,最后使用DDDQN优化整个推荐序列的长期收益。两个真实商品数据集上的实验证明了所提出SGNR优于不利用社交关系的方案和仅仅利用单跳社交关系的方案。

基于多维标签和用户群组特征的LinUCB推荐算法研究

这是一篇关于推荐算法,增强学习,多臂赌博机,多维标签,用户群组的论文, 主要内容为目前,推荐算法已经在互联网产品中占据很重要的位置,传统的推荐模式通常是根据用户已有的历史记录作为训练集,训练好固定的推荐模式进行推荐。但是在现实场景中,用户和推荐系统往往需要持续且密切的交互行为。多臂赌博机算法为解决这个问题提供了有效支持,但仍存在特征数据稀疏、项目特征构建不完善和群组影响等问题。基于上述问题,本文具体的研究内容如下。首先,传统的多臂赌博机推荐算法解决冷启动问题时通常仅考虑用户对项目的评分矩阵,直接构建用户-项目特征矩阵,没有充分考虑项目自身的属性对项目特征构建的影响。本文提出一种基于多维标签的LinUCB(Linear Upper Confidence Bound)推荐算法,该算法通过构建项目-多维标签矩阵,深入提取用户和项目的特征,再使用多臂赌博机推荐算法进行推荐,以此来提高推荐系统的精确度。其次,针对目前基于多臂赌博机的推荐算法推荐对象局限于单用户的情况,提出基于用户群组特征的LinUCB推荐算法,将用户的群组偏好与上下文多臂赌博机算法融合,利用多维标签构建的用户和项目特征矩阵,使用K-means++算法进行用户聚类完成群组划分,在之后采用均值策略构建群组特征,从而完成为群组的推荐,在每一轮推荐结束后根据群组用户的反馈对该算法模型的参数进行动态更新。最后,分别将本文所提两种算法在真实的数据集Movielens中进行实验,验证其有效性和准确性。

基于多维标签和用户群组特征的LinUCB推荐算法研究

推荐系统中实时在线推荐方法的研究

这是一篇关于推荐系统,在线推荐,多臂赌博机,动态聚类,非平稳赌博机的论文, 主要内容为在大数据时代,互联网上信息的爆炸性增长,导致用户在使用互联网提供服务时,很难从海量的信息中筛选出自身真正感兴趣的那部分信息。推荐系统作为一种信息过滤技术常被用来解决这种问题。传统的离线推荐方法利用用户的历史离线数据来学习对应的静态推荐模型,这些方法在物品集或用户集流动性较大的场景(新闻推荐等)中远远不能达到理想的效果。学习到的模型不能很好地处理冷启动问题,也无法实时跟踪用户兴趣偏好变化情况。为了解决离线推荐系统的问题,对在线推荐系统的研究越来越广泛。在线推荐系统可以根据用户对推荐物品的反馈结果,实时更新推荐模型,提升推荐效果。本文将围绕在线推荐场景,研究在线场景下的个性化推荐算法,具体研究成果如下:(1)在线推荐需要根据用户的反馈实时更新推荐系统,其交互特性符合强化学习场景,多臂赌博机算法作为一种简单强化学习方法。其利用到了强化学习顺序交互的特性同时避免了其他强化学习算法复杂、计算量大的问题,成为了在线推荐的一个研究热点。本文介绍了如何将在线推荐任务转换为强化学习任务,并对基于多臂赌博机的在线推荐研究方法进行了相关调研,总结了基于多臂赌博机的在线推荐方法的研究方向,以及相应的研究进展。(2)为了应对在线推荐中新用户到来和物品受欢迎程度的反馈不足问题(冷启动问题),本文针对在线推荐系统提出了一种基于自适应用户聚类的协作上下文赌博机算法ADCB(Adaptive Dynamic Clustering of Bandits)和ADCB+,该算法基于自适应的聚类拆分和合并,它在推荐轮中逐步执行用户级重新分配和聚类级重新调整,以高效、有效地了解用户的偏好及其聚类结构。特别是,所提出的ADCB+方法通过根据用户交互次数自适应地加权这两个影响,进一步利用累积的聚类偏好参数和每个用户的个性化特征。本文在三个现实数据集上的实验一致地表明,所提出的ADCB和ADCB+方案优于现有的基于动态聚类的在线推荐方法。(3)现有的大多数赌博机算法假设用户偏好是静态的。然而现实中用户的兴趣偏好大都是随时间变化的。为了解决这一问题,本文提出了一种基于非平稳环境的协作上下文赌博机算法NCUCB(Non-stationary Collaborative Upper confidence bound)。算法通过维护一个全局使用的赌博机模型池来共享用户信息,同时维护了一个模型选择器,通过考虑模型与用户最近的历史数据的匹配程度以及模型在所有用户中的受欢迎程度,从全局赌博机模型池中选择合适的赌博机模型为用户服务。系统使用变化点检测器来检测每个用户的兴趣是否发生变化,该检测器基于当前用户奖励估计置信度。本文在三个现实数据集上的实验一致地表明,所提出的NCUCB方案优于现有的基于非平稳环境的在线推荐方法。