基于ALS算法的个性化推荐系统的应用研究
这是一篇关于个性化推荐,协同过滤算法,ALS,Spark Streaming,Kafka的论文, 主要内容为推荐系统是指以用户的行为数据为基础,运用相应的推荐算法将用户和信息紧密的关联在一起,对用户的兴趣进行建模,搭建的可快速对用户的行为进行响应,将用户感兴趣的物品推荐给用户,帮助用户发现有价值的信息。主要利用大数据计算平台、云计算、推荐算法、强大且易用的编程语言,改变用户与网络进行数据信息通信的传统方式,为用户提供多元化、个性化的服务。大数据技术的快速发展和编程语言的不断丰富,推动了个性化推荐系统的发展。在信息过载的时代,人们迫切需要实时性强,运行速度快,准确性高的个性化推荐系统。因此,研发基于ALS算法的个性化推荐系统是十分有意义的。学位论文在分析了推荐算法的起源、分类、优缺点和推荐系统的实际应用现状的基础上,结合当前大数据计算平台的最新发展情况,研究了在大数据平台上基于ALS算法的实时个性化电影推荐系统的设计。主要内容有基于ALS算法的实时个性化电影推荐系统中使用的推荐算法ALS进行优化操作,在大数据平台设计系统的体系架构,采集、传送、处理、存储实时数据流,设计美观大方的前端界面。基于ALS算法的实时个性化电影推荐系统的主要功能有:用户注册和登录、电影观看、电影搜索、电影评分、发表评论、浏览电影推荐列表等。基于ALS算法的实时电影推荐系统,通过了在极端条件下的数据量的测试,系统界面美观大方,电影资源丰富多样,准确性高的推荐算法可以给用户实时推荐质量高的电影。
Hi Travel商旅平台的设计与实现
这是一篇关于商旅,商旅平台,差旅分析,微服务分布式架构,Spark Streaming的论文, 主要内容为随着我国政治、经济和文化快速发展,员工对商旅出行服务需求也不断地持续上升,为员工提供在线预订酒店、机票、火车票和差旅费用管理服务,提高员工商旅出行的效率、省去繁琐的报销流程和降低运营的成本,集中式、一站式商旅服务平台的研究已成为企业商旅出行发展的最大亮点。本文所设计的Hi Travel商旅平台依托公司内部其它的基础服务系统和外部第三方供应商系统,实现公司内部员工商旅出行和差旅费用统计分析一站式服务。论文按照传统的软件工程方法,对整个平台进行分析、设计和实现。Hi Travel商旅平台基于主流的微服务分布式架构,采用MVC设计模式,使用Java语言、Spring Boot框架、大数据生态圈等技术完成此平台开发,选用My SQL作为基础数据库,Redis作为缓存数据库,Kafka作为消息中间件,Elasticsearch作为搜索引擎,Spark Streaming作为数据统计分析工具。本平台一共七个模块,分为开通账号、员工管理、预订服务、订单管理、行程服务、结算管理和差旅分析模块。开通账号模块主要有开通第三方供应商账号,员工管理模块主要对开通第三方供应商账号的员工信息的管理,预订服务模块主要有预订供应商的酒店、机票等,订单管理模块主要对酒店、机票等订单信息的管理,行程服务模块主要有lark日历和消息提醒、预览行程信息,结算管理模块主要对原始订单文件、结算单信息管理和推送结算单进行在线付款,差旅分析模块主要有员工历史差旅费用、部门和员工差旅费用排名情况的统计分析。目前此平台已经在公司内部投入使用,传统方式员工出差预订酒店、机票等先自己付款,然后线下报销流程繁琐,消耗公司大量的人力、物力,与此同时公司领导还不能及时查看部门和员工出差产生的费用,此平台解决了传统方式的这些痛点,提高了员工商旅出行的效率、公司差旅政策的执行力和差旅管理的能力,为公司节约了大量的人力和资金成本,得到了员工的一致好评。
基于Spark的实时推荐系统设计与实现
这是一篇关于Spark,Spark Streaming,协同过滤,实时推荐的论文, 主要内容为随着互联网的迅速发展,网络所承载的数据信息也在爆炸式增长。在面对这些海量信息时,人们往往很难找到自己想要的,感兴趣的内容,为了解决这个问题从而诞生了搜索引擎,那些目的很明确的用户可以根据关键字搜索来快速,准确的找到自己想要的内容。然而在实际的日常生活中,很多用户的需求是模糊的,潜在的,为了挖掘出这些用户的潜在兴趣从而又诞生了推荐系统。推荐系统是一种解决信息过载的工具,能够帮助用户发现自己可能感兴趣的信息,使用户寻找感兴趣内容所花费的时间大大减少,从而增加网站的用户黏性。决定推荐系统性能的关键是系统架构设计和推荐算法这两个方面。传统基于离线批计算平台Hadoop的推荐系统,虽然可以通过对海量数据的计算获得较为准确的推荐,但其计算时间较长,无法满足推荐的实时性需求,而目前基于Lambda架构构建的实时推荐系统,采用离线批处理层和在线实时层结合的策略,虽然具有计算准确以及高容错等优点,但也存在结果汇总困难,系统复杂,维护困难等问题,且推荐的结果依赖离线层,如果短时间用户行为发生较大变化则会发生离线层的结果滞后现象,导致推荐不能及时反映用户的兴趣变化。在推荐算法方面,目前常用的推荐算法如协同过滤等一开始只是为了解决离线环境下的推荐任务而提出的,每次的推荐都要基于整个评分矩阵计算得出物品相似度或者用户相似度,当矩阵维度过大计算代价会变得非常高,耗时较长,很难满足实时推荐的需求,而且在实时数据流环境下评分矩阵会经常改变,导致用户相似度和物品相似度的频繁变动,如何在这种环境下实时更新推荐计算结果以及尽量减少不必要的计算成为了推荐算法要面对的一个重要问题。针对上述问题,本文在深入研究了推荐系统的架构设计和推荐算法的基础上,利用Spark的流处理组件Spark Streaming所具有的微批次流数据处理特性,设计并实现了一个推荐计算部分完全由在线层组成的实时推荐系统,和目前广泛使用的Lambda架构相比,本系统不依赖离线层,使得系统的复杂度有了很大降低,并且不存在结果汇总困难等问题,同时因为基于完全在线层的设计提高了推荐的实时性。本文工作具体表现在以下几个方面:首先,对实时推荐系统的需求进行了详细的分析,对可用实时推荐的架构进行论证和对比。在此基础上,基于Spark,Kafka,HBase,Redis实现一个推荐计算部分完全由在线层组成的实时推荐系统架构,即利用Spark Streaming的微批次流处理特性对数据流进行实时计算,以满足实时推荐系对吞吐量和计算延时的需求;利用Kafka消息队列来作为数据缓存模块,以解决实际应用场景中实时数据流不稳定的问题;利用HBase数据库对海量数据提供的存储和随机访问能力,再结合基于内存的数据库Redis提供的快速缓存性能来满足数据处理过程中对数据读写性能的要求。然后,对协同过滤推荐算法在数据流环境下存在的问题进行深入研究,通过在推荐算法中引入Hoeffding界理论实现对数据流的实时过滤,以及通过用户对物品评价正负一致度的物品相似度计算方法实现物品相似度的增量更新,将基于物品的协同过滤推荐算法应用到数据流环境中,在秒级的延时内更新推荐结果。最后,在实时推荐系统架构和推荐算法研究的基础上,对基于Spark的实时推荐系统进行了具体的实现,并通过Movielens数据集对系统进行了测试,结果表明本系统能够在保证推荐准确率的前提下实现秒级延时下的推荐更新,很好的满足推荐实时性需求。
基于深度学习的在线求职推荐系统研究
这是一篇关于推荐系统,实时推荐,深度学习,Spark Streaming的论文, 主要内容为随着大数据时代的到来,网络招聘已成为招聘的首选方式,但海量的职位信息带来了信息过载,众多求职者想找到心仪职位必须要依靠求职推荐系统。目前多数求职推荐系统一般依托检索、协同过滤相关技术或定时推送等方式为求职者推荐职位,不仅无法及时响应求职者的最新求职动向,且在个性化和精准推荐方面表现欠佳。这使得一些没有精确求职目标的求职人群很难通过现有的求职推荐系统获取心仪的职位招聘信息。本文回顾了推荐算法的研究进展,对传统的宽深度模型进行改进,提出一种基于自适应特征嵌入的传播-求和型宽深度模型,该模型排序性能更佳,可以提供更为精准的推荐;另外,本文设计并实现了一个基于深度学习的在线求职推荐系统,并对召回阶段、排序阶段的推荐算法进行设计和优化。主要贡献如下:(1)本文提出了一种结合基于域属性的自适应特征嵌入方法和传播-求和型神经网络结构的宽深度模型,首先,在特征嵌入部分实现了按域加权的自适应嵌入特征,以域内属性个数为依据计算嵌入维度,引入权重归一化层来表征特征间对结果的影响程度;其次,使用一种传播-求和型神经网络结构代替传统宽深度模型中的深度神经网络部分进行高阶特征交叉,不但可以体现出原始交叉特征值,且通过“求和-传播”的循环迭代运算可以泛化出高阶特征交叉组合。在模型训练时,宽度部分使用FTRL来训练;深度部分使用AdaGrad来训练。在相同的离线数据集上分别使用逻辑回归模型、轻量化梯度促进机模型、传统的宽深度模型和本文模型进行训练,本文提出的模型与传统的宽深度模型相比,排序性能提升了5.465%,优化了本文系统的个性推荐和精准推荐的性能。(2)使用分层设计的思想将在线求职推荐系统解耦为基础数据层、数据处理层、召回层和排序层。其中,在基础数据层中,通过Spark Streaming技术分析用户实时行为日志并持久化;在数据处理层,构建了求职者画像、职位画像和特征服务中心三大模块;在召回层,采用基于内容和基于模型的推荐算法并行召回、基于热点的推荐算法作为补召的召回策略;在排序层,使用深度学习模型按照投递概率对候选职位进行排序,最后生成有序的推荐列表。采用投递而非浏览行为作反馈行为,在提升实时性的同时不会加剧信息过载问题。本文通过使用适合大数据并发场景的推荐算法和将耗时计算放在离线部分计算的计算方式来增强推荐的实时性。对召回、排序模型进行系统部署后,经过测试,本文的在线求职推荐系统在实时行为日志落盘后到产生推荐列表一共耗时729ms。
Hi Travel商旅平台的设计与实现
这是一篇关于商旅,商旅平台,差旅分析,微服务分布式架构,Spark Streaming的论文, 主要内容为随着我国政治、经济和文化快速发展,员工对商旅出行服务需求也不断地持续上升,为员工提供在线预订酒店、机票、火车票和差旅费用管理服务,提高员工商旅出行的效率、省去繁琐的报销流程和降低运营的成本,集中式、一站式商旅服务平台的研究已成为企业商旅出行发展的最大亮点。本文所设计的Hi Travel商旅平台依托公司内部其它的基础服务系统和外部第三方供应商系统,实现公司内部员工商旅出行和差旅费用统计分析一站式服务。论文按照传统的软件工程方法,对整个平台进行分析、设计和实现。Hi Travel商旅平台基于主流的微服务分布式架构,采用MVC设计模式,使用Java语言、Spring Boot框架、大数据生态圈等技术完成此平台开发,选用My SQL作为基础数据库,Redis作为缓存数据库,Kafka作为消息中间件,Elasticsearch作为搜索引擎,Spark Streaming作为数据统计分析工具。本平台一共七个模块,分为开通账号、员工管理、预订服务、订单管理、行程服务、结算管理和差旅分析模块。开通账号模块主要有开通第三方供应商账号,员工管理模块主要对开通第三方供应商账号的员工信息的管理,预订服务模块主要有预订供应商的酒店、机票等,订单管理模块主要对酒店、机票等订单信息的管理,行程服务模块主要有lark日历和消息提醒、预览行程信息,结算管理模块主要对原始订单文件、结算单信息管理和推送结算单进行在线付款,差旅分析模块主要有员工历史差旅费用、部门和员工差旅费用排名情况的统计分析。目前此平台已经在公司内部投入使用,传统方式员工出差预订酒店、机票等先自己付款,然后线下报销流程繁琐,消耗公司大量的人力、物力,与此同时公司领导还不能及时查看部门和员工出差产生的费用,此平台解决了传统方式的这些痛点,提高了员工商旅出行的效率、公司差旅政策的执行力和差旅管理的能力,为公司节约了大量的人力和资金成本,得到了员工的一致好评。
基于Spark流式计算的实时电影推荐系统的研究与实现
这是一篇关于推荐系统,电影,协同过滤,日志文件,Spark Streaming的论文, 主要内容为现今社会,随着科技的快速发展,电影方面的信息量与日俱增,与电影相关的信息超载情况已经成为了目前不容忽视的问题。当我们准备看部电影放松放松时,可能因为电影方面信息过多,想要寻找一部满意的电影放松一下将会变得十分困难。除此之外还有大量的用户隐式反馈没有被得到使用,因此如何从海量的电影信息中利用隐式反馈,寻找到自己想要看到电影变成了一个研究热点。此外对于新用户和新电影因为缺少相关数据,而无法产生推荐。针对以上问题,本文设计和实现基于Spark Streaming的实时电影推荐系统,为了能够将用户的隐式反馈和用户的显示反馈相结合,对用户进行实时的电影推荐。同时也解决新用户和新电影不能及时的得到推荐的问题。本文的主要研究工作有:1.在Spark平台上使用基于模型的协同过滤算法构建离线计算系统。设计了一个解决矩阵分解协同过滤算法的冷启动方法,相比于原始的协同过滤算法,提高了推荐精度。2.在Spark平台上使用Spark Steraming构建了在线计算系统。设计了模拟日志程序,它能够实时的产生用户日志文件;设计了Spark Streaming实时接收模块实时的接收和处理用户日志文件;提出如何量化用户隐式反馈计算关注度,将关注度与离线算法模型结合得到在线推荐列表。3.使用java设计电影推荐系统的WEB端。设计了用户操作浏览模块和管理员操作管理模块。用户操作浏览模块可以对用户提供注册、实时推荐等功能;管理员操作管理模块提供电影的添加和下架等功能。
面向目标检测的零代码开发平台的设计与实现
这是一篇关于目标检测,零代码,领域驱动设计,OpenPBS,Spark Streaming的论文, 主要内容为近年来,人工智能技术应用广泛落地,对生产生活、公共服务、社会治理乃至全球竞争格局等领域产生广泛而深刻影响,基于深度学习的计算机视觉作为人工智能的重要领域之一,吸引了众多开发者和开发机构的关注。其中基于深度学习的目标检测任务更是需求激增,例如烟火检测、安全帽识别等,然而与之对应的目标检测服务则只有懂得人工智能的开发者或者开发机构才能提供,要求开发者了解目标检测相关理论模型,有一定的编程和数学基础,并不能满足日益多元化、自由化的企业需求,所以对于旨在降低开发门槛、提升开发效率的面向目标检测的零代码开发平台的开发需求激增。本文针对现有面向深度学习的低代码或零代码开发平台不支持本地部署而缺乏对训练数据隐私保护、数据上传功能单一、无实时信息统计、缺少资源管理等痛点设计并实现了面向目标检测的零代码开发平台,支持从数据管理、在线标注、模型管理、模型训练到结果展示、模型部署的一站式零代码开发服务,本文的主要工作和成果如下:(1)基于领域驱动设计实现了基于微服务架构的面向目标检测的零代码开发平台。基于领域驱动设计思想,本文通过战略设计完成平台子域的合理划分和领域模型到微服务架构的映射,实现了各个模块间的解耦,通过战术设计实现领域内部具体功能的设计和实现。(2)设计并实现了面向目标检测的零代码建模方法,并对现有平台的不足进行了改进。基于深度学习任务的开发步骤,定义了可视化的目标检测任务的开发流程,只需在Web可视化界面进行简单的点选即可完成目标检测模型开发。在全流程零代码建模中,在数据管理模块设计并实现基于哈希值验证的多并发文件传输方案,实现了大文件上传的断点续传和秒传功能,提升了传输速率,解决了大文件上传失败不可续传和同一文件重复上传问题;在在线标注模块,设计并实现了基于数据块的动态数据分配方案,实现了标注数据的动态分配,解决了团队标注效率低下的问题;在模型应用模块,设计并实现了摄像头配置集成及与模型连接推理功能,实时输出推理画面,大大缩短了模型投入使用的周期;支持系统本地部署,在保证用户训练数据隐私的前提下,实现了目标检测任务开发全流程零代码。(3)提出了基于OpenPBS集群的作业全生命周期管理和资源管理调度解决方案。基于OpenPBS作业调度和集群管理系统,设计并实现了作业开启、作业终止、作业占用资源和集群资源查询等功能,为模型管理模块的作业操作和模型应用模块的训练环境配置提供支撑,解决了传统方案中的缺乏对作业和资源有效管理的问题。(4)提出了基于Kafka和Spark Streaming的实时信息统计解决方案。基于分布式消息队列系统Kafka和流处理引擎Spark Streaming,设计并实现了对模型训练过程中产生的准确率、损失函数等参数的统计,支持绘制成曲线图和饼状图,实时展示训练中的各种实时参数,为模型管理模块的查看训练实时信息提供支撑,解决了传统信息传输中的高延迟、扩展性差、可靠性低等问题。经过系统测试以及与其他现有平台进行对比,可看出本文提出的面向目标检测的零代码开发平台有效地解决了现有基于深度学习的低代码或零代码开发平台不支持训练数据隐私保护、数据上传方式单一、无实时信息统计、缺少资源管理等痛点,更具可靠性、稳定性、灵活性、时效性。
基于Spark的实时推荐系统设计与实现
这是一篇关于Spark,Spark Streaming,协同过滤,实时推荐的论文, 主要内容为随着互联网的迅速发展,网络所承载的数据信息也在爆炸式增长。在面对这些海量信息时,人们往往很难找到自己想要的,感兴趣的内容,为了解决这个问题从而诞生了搜索引擎,那些目的很明确的用户可以根据关键字搜索来快速,准确的找到自己想要的内容。然而在实际的日常生活中,很多用户的需求是模糊的,潜在的,为了挖掘出这些用户的潜在兴趣从而又诞生了推荐系统。推荐系统是一种解决信息过载的工具,能够帮助用户发现自己可能感兴趣的信息,使用户寻找感兴趣内容所花费的时间大大减少,从而增加网站的用户黏性。决定推荐系统性能的关键是系统架构设计和推荐算法这两个方面。传统基于离线批计算平台Hadoop的推荐系统,虽然可以通过对海量数据的计算获得较为准确的推荐,但其计算时间较长,无法满足推荐的实时性需求,而目前基于Lambda架构构建的实时推荐系统,采用离线批处理层和在线实时层结合的策略,虽然具有计算准确以及高容错等优点,但也存在结果汇总困难,系统复杂,维护困难等问题,且推荐的结果依赖离线层,如果短时间用户行为发生较大变化则会发生离线层的结果滞后现象,导致推荐不能及时反映用户的兴趣变化。在推荐算法方面,目前常用的推荐算法如协同过滤等一开始只是为了解决离线环境下的推荐任务而提出的,每次的推荐都要基于整个评分矩阵计算得出物品相似度或者用户相似度,当矩阵维度过大计算代价会变得非常高,耗时较长,很难满足实时推荐的需求,而且在实时数据流环境下评分矩阵会经常改变,导致用户相似度和物品相似度的频繁变动,如何在这种环境下实时更新推荐计算结果以及尽量减少不必要的计算成为了推荐算法要面对的一个重要问题。针对上述问题,本文在深入研究了推荐系统的架构设计和推荐算法的基础上,利用Spark的流处理组件Spark Streaming所具有的微批次流数据处理特性,设计并实现了一个推荐计算部分完全由在线层组成的实时推荐系统,和目前广泛使用的Lambda架构相比,本系统不依赖离线层,使得系统的复杂度有了很大降低,并且不存在结果汇总困难等问题,同时因为基于完全在线层的设计提高了推荐的实时性。本文工作具体表现在以下几个方面:首先,对实时推荐系统的需求进行了详细的分析,对可用实时推荐的架构进行论证和对比。在此基础上,基于Spark,Kafka,HBase,Redis实现一个推荐计算部分完全由在线层组成的实时推荐系统架构,即利用Spark Streaming的微批次流处理特性对数据流进行实时计算,以满足实时推荐系对吞吐量和计算延时的需求;利用Kafka消息队列来作为数据缓存模块,以解决实际应用场景中实时数据流不稳定的问题;利用HBase数据库对海量数据提供的存储和随机访问能力,再结合基于内存的数据库Redis提供的快速缓存性能来满足数据处理过程中对数据读写性能的要求。然后,对协同过滤推荐算法在数据流环境下存在的问题进行深入研究,通过在推荐算法中引入Hoeffding界理论实现对数据流的实时过滤,以及通过用户对物品评价正负一致度的物品相似度计算方法实现物品相似度的增量更新,将基于物品的协同过滤推荐算法应用到数据流环境中,在秒级的延时内更新推荐结果。最后,在实时推荐系统架构和推荐算法研究的基础上,对基于Spark的实时推荐系统进行了具体的实现,并通过Movielens数据集对系统进行了测试,结果表明本系统能够在保证推荐准确率的前提下实现秒级延时下的推荐更新,很好的满足推荐实时性需求。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕业设计货栈 ,原文地址:https://bishedaima.com/lunwen/48800.html