9篇关于spark的计算机毕业论文

今天分享的是关于spark的9篇计算机毕业论文范文, 如果你的论文涉及到spark等主题,本文能够帮助到你

多源大数据处理与分析平台的设计与实现

这是一篇关于Spring Cloud,大数据,spark,持续集成的论文, 主要内容为随着互联网一直以来的高速发展,各行各业都得到了快速的发展,这也加速推动了大数据时代的到来,无论企业的大小,它们在使用数据上都面临着一个挑战,那就是企业数据量越来越大。因此需要对数据进行治理以确保容易的使用高质量数据,保证企业能更快的提取有效的数据信息。目前很多公司自行收集的数据文件都是比较原始的而且管理较为混乱,经常会以不同的结构存储在不同的存储结构中,而且这些数据文件数据体量大、数据文件多,格式杂,内容乱,数据价值难以评估,企业难以从数据中快速获取有用的信息,难以形成有效的业务应用,也无法很好的梳理和这些数据有关的业务逻辑。所以迫切需要对这些原始数据进行处理,提升数据应用价值,解决数据孤岛等问题,为后续的业务应用提供坚实的数据基础。根据现在存在的问题,本论文所提供的解决方案是多源大数据处理与分析的平台,旨在帮助企业将混乱的零散数据整理成清晰有条理可追溯的高质量数据,帮助企业梳理数据关系,挖掘数据信息。该平台是基于微服务架构的,后台采用的是Spring Cloud框架进行开发,平台的每一个功能模块都是相对独立的微服务模块,这样可以保证每一个不同的服务都是可插拔式的,保证整个系统的健壮性以及可扩展性。同时使用zuul网关进行权限认证保证服务调用的安全性。在数据处理部分主要采用的spark集群进行快速的数据处理和分析。在系统的迭代开发过程中结合Gitlab以及Jenkins进行持续集成持续部署,保证系统的迅速集成迭代部署。系统的功能点主要包括数据标准管理,数据清洗,数据集成,数据质量稽核以及元数据管理。本文将从需求分析,系统设计,系统实现与测试等方面对平台各个模块进行详细的设计和实现阐述。在整个项目的开发过程中,本人参与了平台前期的需求分析以及系统设计,之后参与了平台功能模块的后台Java代码编写,同时负责平台的持续集成持续部署等内容,后期参与了平台测试和上线部署。本论文中的项目已经上线并处于beta测试阶段,已经向部分的金融企业提供数据管理服务。目前系统能够正常为企业提供数据管理服务,同时在安全性,健壮性等方面都满足预期要求。

多源大数据处理与分析平台的设计与实现

基于深度学习的互联网金融分布式风控系统设计

这是一篇关于互联网金融,信用风险,分布式,spark,HDFS,深度学习,DBN,深度置信网络的论文, 主要内容为目前随着移动支付在我国的飞速发展很多以往的现金交易逐渐被其取代,不同金融机构数据连通和集成等因素为互联网金融的快速发展提供了条件,随着目标用户的不断增多数据量的不断增大,如何高效、准确的进行信用风险控制已经成为影响各大金融机构、互联网平台快速、健康发展的主要因素之一。此外电商平台的发展欺瞒经营、刷单等恶劣行为也影响信用风险评估的正常开展。而金融的本质就在于风控,移动支付的推广和普及为互联网金融提供了数据环境,同时也对互联网金融风控提出了新的场景与新的问题。故而本文在互联网环境下信用风险控制、评估中应用深度学习算法的可行性、实用性进行深入分析和研究并进行了实验验证。本文先从信用风险控制的背景、相关理论方法及其在互联网金融下的面对的新的问题和挑战的介绍开始。在介绍了解目前主要信用风控、评估的各类方法(包括传统基于业务经验的方法、基于统计的方法、基于金融衍生工具的方法以及基于机器学习的方法等)的基础上,进而详细介绍目前在其他一些领域已经展开应用良好效果的几种深度学习算法和框架。传统的控制方法比如专家制度法等需要依赖大量的人工以及行业经验,难以应用在互联网金融中大规模用户群体上。而传统基于统计的方法、衍生工具的方法,对于复杂的非线性问题表现不佳。目前对于机器学习在信用风险控制中也有很多研究和应用,但是对于深度学习在信用风险的研究与应用目前尚未有显著成果本文从介绍深度学习一些基本原理开始,设计基于分布式环境下深度学习实践应用。因此结合目前主流的互联网金融平台的分布式技术环境,对本文所设计系统一些分布式应用技术关键点(包括调用监控系统设计、底层存储以及分布式并行计算框架设计)进行了阐述和分析。基于理论、技术基础本文提出了一个以DBN模型为核心的信用风控原型系统模型设计并对应设计其中各个功能模块(包括数据预处理、特征衍生和选择、清洗与转换以及输出、监控模块和DBN并行计算设计等等)进行阐述和重点设计。最终本文基于国内某互联网金融平台的实际用户数据对本文所设计系统与传统基于规则的风控系统进行了实际对比验证,从而验证深度学习技术在信用风控、评估领域具有较高可行性和实用性。最后在本文所设计系统与比对验证实验效果的总结基础上对深度学习在信用风险控制、评估领域应用的未来以及一些问题进行了展望:比如DBN模型训练过程的一些不足、深度学习技术本身的部分局限性以及单个平台能获得的外部数据有限,各大平台数据的连通还有很长的路要走,打破“数据孤岛”对基于互联网大数据的信用体系构建也是一个至关重要的基础问题。

多源大数据处理与分析平台的设计与实现

大数据环境下的水上交通数据分析系统的设计与实现

这是一篇关于地理区域划分,spark,元数据,水上交通的论文, 主要内容为水上交通数据来源复杂多样,不仅体量极大而且数据结构复杂,因此数据处理过程较为复杂、效率以及自动化程度较低已经成为了当前水上交通信息研究的几大痛点。本文主要是研究如何提高水上交通数据的处理性能,并且在复杂多样的数据结构下能够灵活、多维、准确地对数据进行分析统计,并采用可视化的形式展示数据分析统计的结果,帮助水上交通信息研究人员做出更好的决策。水上交通数据来源主要分为设备采集的AIS数据以及各水上交通单位提报的业务数据,因此本文针对这两大类数据来源制定了不同的处理方案,分别处理后在系统中进行统一的分析展示。研究工作主要有以下几点:1.针对设备自动采集的AIS结构化实时数据的分析工作:采用Scala语言对数据进行解析预处理后,使用非关系型文档数据库Hbase进行数据的存储,本文重点研究了断面维度的船舶流量统计算法,使用该算法结合基于Hadoop分布式系统的spark计算引擎对预处理的AIS数据进行计算,最终将计算结果存储到关系型数据库中,并且在系统中实现地图形式的可视化展示。2.针对关系型数据的分析工作:由于不同交通单位提报的数据结构差异较大、复杂多变而且最终需要进行联合统计分析,因此对业务数据使用关系型数据库SqlServer进行存储。面对数据结构差距较大的情况,本文采用了元数据引擎作为数据的访问入口,对数据进行整体驱动。同时对海量历史数据以及AIS数据计算得来的断面数据进行多维分析,达成了数据的全面、快速、可视化的分析统计要求。3.在上述两种数据处理方案的基础上,结合调研所得到的需求进行分析,设计了数据管理、数据处理、规则管理以及数据分析统计等模块,最终实现了基于B/S架构的数据处理分析系统。因此,本文所研究的大数据环境下的水上交通数据分析系统可以更加高效、准确地获取交通信息,满足了水上交通信息研究人员对于数据分析全面、快速、多维的要求。

基于用户行为数据的网络商城监控预警系统的分析与实现

这是一篇关于数据监控,数据可视化,spark,Echarts,mvc的论文, 主要内容为随着互联网技术的发展,互联网服务提供商所要处理的数据量已成突变性的增长。特别地,在电子商务领域,随着网购的人数逐年增多,平台每天记录到的数据集量也越来越庞大。因此,如何更加有效的利用收到的信息,以及如何确保收集来的数据的正确性成为平台迫切解决的问题,此外,随着有关用户购物行为的数据挖掘业务的不断增长,围绕着电商平台数据监控,数据统计可视化的需求逐渐显现。基于用户行为的监控预警系统的出现,将使电商平台收集到有关用户的信息被充分利用,进而使得个性化推荐更为精准,为商家开拓了新的销售渠道。本文基于京东商城网站,APP,微信小程序,三端用户行为数据,以及商家和商品数据库,利用spark集群计算技术,Springmvc,Echarts,jquery等前端框架等成熟技术,设计并实现了电商平台基于用户行为的监控预警系统。主要满足推荐算法工程师在训练模型和预测结果时,能够对来源数据集进行快速的统计和监控,从而对对数据集的质量做出判断,以及对一些关键的统计结果进行展示,帮助商城的领导层做出有利于企业的决策。

多源大数据处理与分析平台的设计与实现

基于Spark的分布式推荐系统的设计与实现

这是一篇关于spark,推荐算法,相似性计算,遗忘函数的论文, 主要内容为世界正处于信息科技化时代,全球信息总量飞速增长,但其中所蕴含的价值也越来越大。推荐系统可以依据用户的基本信息及历史行为从海量数据中挖掘出用户所需信息并自动给用户或物品提供个性化推荐服务。如今协同过滤是整个推荐体系中推广最成功和运用最普遍的推荐方法之一,关于协同过滤推荐算法的研究一直处于上升趋势,但是所面临的问题仍然有很多。传统的推荐算法实现过程需要耗费大量的运算时间,时延长,时效性差,已经不能满足当今的商业要求;同时现在采用的大部分推荐算法都存在着数据稀疏和冷启动问题,这都严重影响着推荐结果的准确性。因此针对以上现状,课题将主要从推荐算法的时效性和准确性两方面着手。(1)推荐系统的时效性,对推荐系统所采用的平台进行优化。推荐系统所采用的平台是对数据复杂处理、分析和计算迭代上的性能较优的Spark,在此平台上完成基于als模型推荐算法的并行化,提高数据处理速度;从而使推荐系统耗时更短,用户效果体验更好。(2)推荐系统的准确性,对推荐算法的实现过程进行优化。在spark平台上并行化实现基于als模型的推荐算法。考虑到基于als模型,物品相似性元素缺失和伴随着时间迁移用户兴趣遗忘导致推荐系统准确性过低问题。课题将几种常见的相似性计算进行对比,并在损失函数中融入合适的物品相似性计算来减少隐形因子物品属性信息的丢失,在预测评分中引入兴趣遗忘函数,从而实现实时的准确性较高的推荐。课题采用公开的MovieLens数据集,对比实验结果发现,通过对推荐系统所采用的平台和算法实现方式的优化有效提高了推荐系统的时效性和准确性。