8篇关于MapReduce的计算机毕业论文

今天分享的是关于MapReduce的8篇计算机毕业论文范文, 如果你的论文涉及到MapReduce等主题,本文能够帮助到你

基于分布式的学生体质测试评价管理系统的设计与实现

这是一篇关于体质测试,因子分析,Hadoop,MapReduce,KNN的论文, 主要内容为国家素质教育的口号提出已久,各行业对人才的需求也不仅仅停留在学术的层面,良好的价值观,基本的做人素养以及体质健康状况等都作为重要的因素予以考量。然而随着国民经济的发展,人们的生活水平更加富足了,生活也更加的便利了。但是与此同时很多人缺乏了适度的锻炼和良好生活习惯的养成,造成了多数处于亚健康状态,高校学生也不例外。国家对学生的体质健康状况也是愈发重视,不断修改完善关于学生体质健康的标准。各高校也是积极响应国家的政策,每年定期开展关于学生体质测试的工作来对学生的体质健康情况进行摸排。本文主要针对学生和老师两类用户群体,使用Sring+Spring MVC+My Batis的框架对系统进行B/S架构的开发,并通过搭建Hadoop分布式集群,利用其Map Reduce分布式计算框架来完成对设计的模型中的部分算法做并行化实现,使系统在处理大规模体测数据的算法计算时更加高效可靠,从而完成系统对学生体质测试数据的评价与管理。不论是对体测数据集进行评价分析,还是对数据进行可视化,在进行之前关键的一步就是对数据的预处理,基于数据预处理的后续数据挖掘,才具有更高的完整性、准确性、可靠性。缺项处理、特征编码等部分。其中本文构建了一种在体测数据的预处理中,基于KNN的体测缺项数据均值填补的方法,来对进行缺项数据的填补。在数据经过处理后,本文设计了一种基于因子分析的学生体质健康评价方法,得出评价学生体测数据的四个维度:身体素质、身体形态、身体机能、运动能力,并通过功效系数法的二次处理后,从这四个维度开展身体素质评价,然后对评价结果合格及以下的方面给出改善建议,并与国家标准计算结果进行比对分析来验证模型的可靠性。由于当输入模型的体测数据样本变得庞大时,一些算法在普通单机下计算会受到资源的制约从而影响系统的计算效率。本文利用Hadoop的Map Reduce分布式计算模型,通过对涉及算法中的基于KNN的体测缺项数据的填补和因子分析中的PCA算法进行并行化思想中的函数设计与实现,让系统在算法模型的计算中更加的高效与可靠。在系统的实现上,本文从学生端和教师端的功能模块进行实现,主要对系统登录模块、学生体测项目预约模块、学生体质评价分析模块、教师班级信息管理模块、各班级学生体质统计模块、教师消息发布模块做出了详细的介绍。

面向MapReduce的缓存感知调度平台的设计与实现

这是一篇关于HDFS,MapReduce,迭代运算,分裂缓存,缓存感知调度的论文, 主要内容为随着数据爆炸时代的到来，如何高效地对TB级甚至是PB级的大规模数据进行处理是业界急需解决的问题。在应用需求和技术推动下，云计算作为一种新的计算模式被提出来了，并逐步成为了IT界的主旋律，Hadoop分布式计算平台是云计算的开源实现，Hadoop的主要组成部分是HDFS（Hadoop分布式文件系统）和MapReduce计算模型，MapReduce分布式计算框架作为云计算中处理大规模数据的利器而被各大企业广泛应用。然而，在实际应用中，MapReduce还有很多有待完善的地方，尤其是在调度机制方面，包括任务分配不均等方面，同时原有的调度处理方式造成的资源和流量的浪费。本论文主要通过对IBM公司的Platform MapReduce在做迭代运算的时候重复地从文件系统中调用相同的数据造成资源的浪费和效率低的问题，通过追踪客户报告，进行分析，提出了解决方案，提出功能需求包括分裂缓存需求和缓存感知调度需求，提出包括提高K-means算法效率的性能需求。这个解决方案，通过对HDFS和Map任务中间的数据的调用和存储进行优化，将作业间的相同数据存储在缓存中，管理缓存信息，并且将这些缓存信息通知给主管理节点。减少了从HDFS文件系统调用数据，减少了对本地磁盘空间的占用，减少作业运行时间，解决了海量数据在做分析时的资源浪费和效率低的问题。本论文主要包括分裂缓存和缓存感知调度两个子系统的设计和实现。分裂缓存子系统的设计主要包括分裂缓存的状态判断模块设计，分裂缓存的注册模块设计，分裂缓存过期信息管理模块设计等实现了避免从HDFS文件系统中调用相同数据，并且将这部分数据存储在内存缓存中，对缓存中的分裂缓存信息进行管理。缓存感知调度子系统的设计主要包括SSM（Session Management,服务会话管理）与MRSS（MapReduce Shuttle Server, MapReduce的洗牌服务）连接模块设计，MRSS存储更新模块设计，SSM存储更新模块设计，SSM调度模块设计和连接可靠性模块设计等实现在集群操作环境中，主管理节点可以获知计算节点的分裂缓存信息，得到有分裂缓存信息的机器列表，进而当Map作业到来时合理地调度资源，实现资源的使用优化和提高处理数据的效率。本论文进行了系统测试，开启分裂缓存与缓存感知调度的功能时，迭代运算的大规模数据作业的运行速度有明显的提高，作业运行所用的时间大幅减少。另外，对Hadoop的性能进行了测试，相对于标准的Hadoop，集群的性能提高了33%左右，并且提高了K-means算法的效率。通过了测试，并且满足了需求。

基于云计算的知识服务推荐系统研究

这是一篇关于知识服务,云计算,推荐系统,个性化,MapReduce的论文, 主要内容为推荐系统可以根据用户信息及行为，例如性别、年龄、爱好以及用户选择记录，从海量知识中选择其可能感兴趣的内容推荐给用户。推荐系统很好的满足了知识服务的个性化服务特征。推荐系统对用户信息和行为数据的不断采集，推荐质量也在相应提高，不断接近精确推荐。推荐系统在社交网络、电子商务、搜索引擎、互联网广告营销中具有重要的意义。今天，我们的学习系统与社交网络、搜索引擎等密不可分，那么研究推荐系统对促进我们的学习也具有重要的意义。云计算平台为推荐系统提供了天然优势。首先，云中的数据存储是集群化的，存储管理是虚拟化的，理论上为推荐系统提供了无容量限制的数据存储能力和高效的数据吞吐能力，推荐系统因此可以拥有能快速获取、海量的训练数据，得以提供优质的推荐结果；其次，云的分布式计算能力和物理资源虚拟化为推荐系统提供了较高的响应能力，这有助于为大量用户提供个性化推荐。通过对知识服务、推荐系统、云计算相关技术的阐述，构建了个性化推荐系统模型，构建了云环境下的知识库，构建了用户模型，并在MapReduce的基础上改进了基于协同过滤的推荐算法，使推荐系统适应当前海量数据时代的计算要求。在理论上对云计算环境下的知识服务具有一定的探索意义，在实践上对向学习者推荐个性化知识服务具有参考价值。

基于Hadoop的电影推荐系统的研究与实现

这是一篇关于电影推荐,Hadoop,协同过滤推荐算法,K-Means,MapReduce的论文, 主要内容为进入Web2.0时代,互联网的应用越来越广泛,大量的电影资源在网络上涌现,为了在如此庞大而复杂的电影资源中找到感兴趣的东西,推荐系统得到了广泛的应用。大数据显示,当代更多的人更偏好在电影网站上看电影,因此电影网站在我国具有很好的发展前景,而构建一个准确高效的推荐系统是网站成功的关键。本文设计的电影推荐系统基于Hadoop平台实现,Hadoop是一个扩展性良好、高效性、开源的分布式框架,对于现代的电影推荐系统来说,每天都在飞速增长的大数据存储和计算是最大的难题,而Hadoop在解决大数据问题上有着其他平台无可比拟的优势,Map Reduce分布式框架能够实现大数据的计算,HDFS分布式文件系统能够实现大数据的存储。推荐系统的关键是推荐算法,本文提出了一种Hadoop平台下的聚类协同过滤推荐算法。首先采用Canopy算法根据用户对电影的评分记录将相似的用户粗聚类。然后对同一Canopy内的用户进行K-Means迭代计算,将Canopy聚类的个数作为K值,采用Pearson相关系数作为距离公式对用户精准聚类。Pearson相关系数反映的是两个向量之间的相关性,它考虑到了不同用户之间的评分差异。最后基于聚类结果构建用户最近邻集合,计算出预测评分,生成推荐结果。Canopy与K-Means二者结合,既在一定程度上减少了计算量,又使聚类结果更加准确。在Movielens数据集上的对比实验结果表明,本文提出的推荐算法在精准度和扩展性上都更加优化。本系统的研究与实现过程如下:1.需求分析阶段:分析系统的实现目标,首先进行系统的可行性分析,然后分别从管理员和用户的角度考虑,对本系统的功能与非功能需求进行详细分析。2.设计阶段:对系统的整体架构、功能及数据库进行设计。3.电影推荐算法:本文提出的推荐算法将聚类与协同过滤推荐相结合,在Hadoop平台上实现,首先根据用户对电影的评分,使用聚类算法将相似的用户聚在一起,然后使用Pearson相关系数和阈值来构建最近邻集合,最后计算目标用户对相似用户评过分的项目的预测评分,对其排序生成推荐结果。整个算法基于Hadoop平台运行,Map Reduce的分布式并行化框架计算实现了算法的可扩展性,HDFS实现了海量数据存储的扩展性。同时基于Movielens数据集进行对比实验,验证本文提出的推荐算法的精准度。4.实现及测试阶段:基于Eclipse平台,使用JSP、Java Script等语言对前台界面进行编码实现,基于Hadoop平台,使用java语言完成算法部分的代码编写,对系统的功能进行测试。

基于Hadoop的海量数据分析系统的设计与实现

这是一篇关于Hadoop,MapReduce,数据分析的论文, 主要内容为随着互联网的不断发展，国内大型互联网公司业务的不断复杂化，分析核心数据成为了公司发展的关键点，但是公司内部的核心数据原始文件庞大，目前大部分是通过人工分析得出结论，因此分析处理海量数据成为亟待解决的问题。本文研究了海量数据处理的国内外现状，阐述了分布式MapReduce的编程思想，介绍了Hadoop的相关技术和HDFS文件系统，分析了企业的需求，使用了spring-mvc和hibernate等Web开发框架对系统进行了分层设计，将系统分成了展现层、业务逻辑层、数据对象实体层、底层数据层和原始资源层。然后对系统结构展开设计和实现，结合实际业务设计了分布式Hadoop计算模块、数据结果存储模块和业务系统逻辑模块三个模块，最后对各个模块进行了测试，实现海量数据分析系统。本文所做工作被用于大型互联网公司系统的开发。实践表明，采用本文所设计的系统后，提高了数据分析的效率，改变了人工计算海量数据的情况，实现了数据分析统计的高效性和集中性。

基于Hadoop的电商数据分析系统的设计与实现

这是一篇关于Hadoop,MapReduce,Hive,数据分析,情感分析,协同过滤的论文, 主要内容为随着计算机技术、网络技术和Internet技术的发展,以及各行业业务操作流程的自动化,行业应用所产生的数据呈爆炸性增长,数据动辄以TB计算。这些数据及产生的信息如实的记录着企业运作的状况。面对这些海量的数据,传统的数据分析工具存在很多缺陷,无法有效地进行处理分析。数据格式的多样性,数据的复杂性导致数据融合困难,单机存储存储量有限,且查询效率低,同时基于单机处理的数据分析有很大的局限性,它只能处理小规模的、规范化的数据,运行速度慢,很难进行深层次的数据挖掘。因此人们不断探索新的工具来分析企业的运营规律,为决策人员提供有价值的信息。随着以互联网为代表的信息技术深度发展,传统机器的软硬件不足以支持如此庞大的数据量的存储、管理及分析能力,因而专门应对大数据的分布式处理技术应运而生。如今业界大数据处理的主流平台非Hadoop莫属。Hadoop自推出以来因其在大数据领域的广泛实用性,很快在工商业界得到普及应用,同时得到了学术界的广泛研究。在短短的几年中,Hadoop很快成为到目前为止最为成功、最广泛使用的大数据处理主流技术和系统平台,并且成为一种大数据处理事实上的标准,得到了各行业大量的进一步探索与研究应用,尤其是在互联网行业得到了广泛的应用。由于传统的数据分析使用在单机系统上的局限性,当处理大量数据时,会显著的影响系统性能。因此为解决这一问题,本文在深入分析Hadoop大数据平台的相关技术下,提出了基于Hadoop的电商数据分析的系统方案,帮助企业利用有效的数据分析方法更好地作出商务决策。此方案利用Flume采集用户在电商网站上产生的海量用户行为数据,并存储到HDFS分布式文件系统上,以MapReduce计算框架为数据处理方式,利用Hive从不同维度对数据进行统计分析,最后本文提出了一种改进的K-means聚类和协同过滤混合推荐算法对用户进行商品推荐。本文根据需求分析对系统架构和业务流程进行了详细设计,将系统分为四个模块:数据收集模块、数据分析模块、数据展示模块及数据应用模块。并对这四个模块进行了详细的设计和实现。最后基于此系统完成了某电商公司日志文件分析和商品评论分析,同时在此基础上进行了用户推荐的测试。通过获得的数据分析结果,可以帮助公司对网站的应用有一个比较好的了解,并且更加详细地了解用户的行为习惯,从而找出网站、推广渠道等营销环境存在的问题,有助于营销的精准化,提升公司的效益。本文介绍商品评论的分析挖掘目标和流程,对商品评论数据进行可视化分析,并提出了基于分词法和评分的方法用于评论数据情感分析。且提出了一种改进的K-means聚类和协同过滤混合推荐算法,将Hadoop大数据技术和此算法相结合,将其运用到实践中,解决了电商企业的用户数据分析和用户推荐等业务需求问题。

分布式网络爬虫技术研究与实现

这是一篇关于网络爬虫,MapReduce,Python,URL去重的论文, 主要内容为互联网的爆炸性发展使得其规模由1993年的数千个网页发展为现在的数十亿个网页,并且这个数字还在疯狂膨胀中。随着互联网的规模迅速增长,其相关的服务和信息量也随之快速增长。在这些信息得到人们广泛应用的同时,专门负责互联网信息收集工作的网络爬虫也面临着巨大的挑战。目前,国内外的大型互联网公司、相关研究机构(如：Google、百度等)已经给出了一些较为成熟的解决方案,有些也已投入使用,但是这些方案大都只能为一般用户提供一种不可定制的搜索服务,而且很多公司将这些网络爬虫的技术列为商业机密,并未公开,已经无法满足广大用户日益增长的各种要求；互联网如此庞大、错综复杂就算是Google、百度这样的搜索巨头也无法完整搜集完所有的网页,更不用说普通用户。本文着重研究中小型规模的分布式爬虫,设计并实现了一个基于MapReduce分布式计算模型的分布式网络爬虫。综合起来本文的主要工作如下：首先,本文介绍了网络爬虫中的相关技术和当前流行的Map/Reduce分和式计算模型。随后在MapReduce分布式计算模型的基础上设计了由多台PC构成的分布式网络爬虫系统-DWCS。其中通用的crawler模块负责对网页的抓取,并提取URL; master模块负责对URL进行去重等处理,并分配给各个crawler模块。然后,在上述的基础上,利用Python与Mincemeat.py分布式计算模块实现了该分布式爬虫。最后,本文对DWCS系统进行了测试,对测试结果进行了分析,对目前的工作做了总结,找出了不足,并对日后的工作做了展望和部署。

基于用户协同过滤算法的推荐系统的设计与实现

这是一篇关于欧氏距离,协同过滤,MapReduce,并行算法的论文, 主要内容为Web 2.0是一个历史性的时代转折点,伴随着各种网络媒体的高速发展,Internet用户不仅时时刻刻在利用这些海量的数据信息,而且也在不停地制造,由此便造成了互联网信息的急速增长。与此同时,因为用户的信息筛选能力有限,所以他们在面对错综复杂的Internet信息时经常毫无头绪,而推荐系统的出现为人们快速获取有效信息提供了可能。推荐系统根据用户的历史行为数据进行分析,并计算哪些内容是该用户可能感兴趣的,然后通过某种优化方式将最终的推荐结果信息展现给用户。由此看来,推荐系统更能适应如今大数据时代的快速发展。然而,传统的推荐技术在面临大数据时代带来的挑战时有点力不从心。Hadoop分布式平台和Mapreduce编程思想的结合是目前处理大数据计算的有效技术手段之一,分布式集群中的计算节点会并行地处理被MapReduce划分的各个子任务,从而提高系统对大数据的处理能力和计算速度。本文重点研究了推荐系统中常用的用户协同过滤推荐算法,并针对算法中欧氏距离相似度计算模型的不足,从用户共同评价数和时间衰减两个层面出发,提出了改进的欧氏距离相似度计算模型,并以MAE作为算法改进效果的衡量标准来验证改进的欧氏距离相似度算法在推荐准确度上优于传统算法。面对源数据集信息量大的问题,本文采用MapReduce编程思想对传统的用户协同过滤算法进行分布式改进,使之能够在不同的计算节点上同步计算,从而提高推荐系统的执行效率。通过设置不同计算节点、不同数据规模的对比实验,用真实而科学的实验数据验证了改进的并行算法在处理大数据计算时效率更高。最后,本文借助于Flask轻量级Web框架等技术对推荐系统进行设计与实现。

本文内容包括但不限于文字、数据、图表及超链接等）均来源于该信息及资料的相关主题。发布者：源码港湾，原文地址：https://bishedaima.com/lunwen/45958.html