Hadoop集群管理系统的设计与实现
这是一篇关于Hadoop集群管理工具,MVC模式,Akka框架,Hibernate,REST API的论文, 主要内容为本文设计并实现了一个Hadoop集群管理系统。该系统提供了独有的基于浏览器的集群安装和管理界面,解决开源版本管理困难的问题,同时还提供网页和邮件方式的系统异常报警机制。通过这一功能强大且易于使用的工具,用户可以可视化地完成包括集群的安装、配置、管理、优化等在内的所有对Hadoop集群的操作,从而专注于从Hadoop环境获得最大的业务价值,而不必担心集群管理的问题。本文的主要工作有:1)阐述项目的研究背景,分析项目的意义和应用前景,并综述和分析了Hadoop相关研究成果;2)详细地分析了系统的功能和非功能需求,并分析了相关技术选型的思路;3)设计系统整体框架,对各个主要模块进行详细的分析和设计。系统整体采用Akka+Spring MVC架构,并使用Hibernate框架封装对数据库的操作。4)阐述系统开发过程中使用到的部分关键技术与算法,提供较为详细的解释和说明。项目完成后,经实验证实,在亚马逊35台节点上,使用该系统安装一个包括所有Hadoop组件的集群,只需要3分钟。在Apache Hadoop软件的英特尔发行版在中国推广的两年多时间里,已经在电信行业、智能交通行业、金融行业和医疗卫生行业有多个成功应用,受到了包括中国农业银行等多家企业在内的一致好评。
数据预测的图形化编程及应用
这是一篇关于数据预测,图形化编程,分布式,REST API,特征工程的论文, 主要内容为数据预测在诸多方面都有需求,但是实际使用时难度较大。当前各行业使用的数据预测方法层出不穷、各个算法的可适用范围也不相同,这给程序设计人员在使用的时候造成了较大的困难。通常需要专业的知识才可以进行数据预测的模型设计,同时还需要具备一些应用型程序设计知识,才能较成功的呈现出算法的结果。为了解决这些问题,本文将图形化编程的思想应用于基于机器学习的数据预测中,从理论和实践两方面论述如何对基于机器学习的数据预测算法进行简化,最终实现一个可以给非机器学习专业用户也能使用的数据预测平台,同时对其中的某些步骤进行了研究和改进。本文的具体研究内容和创新点如下:(1)当前机器学习领域内,特别是在机器学习在预测算法的应用上,各种算法之间没有明确的种类划分,导致了无法对算法按执行顺序进行排序,因此无法确定算法之间能否同时使用,为了解决这个问题,参考大数据、数据科学以及机器学习领域的知识,提出一种机器学习的分步方法,将机器学习总体拆分成了三个大阶段(特征工程,模型设计和结果评估),共十个小阶段,通过这种划分可以达成对算法进行顺序的区分,进而通过数据预测的应用背景将各层算法之间进行结合,从而实现图形化编程的效果。(2)在实际应用背景下,数据来源不一定可靠,因此需要对数据进行可信计算。目前流行的可信度评估机制是滑动窗口机制,其在可信度评估时通常需要遍历整个窗口内的数据,当结合KNN、SVM之类的算法使用时,其在滑动窗口内相对于数据规模的时间复杂度都不小于O(n2),并且滑动窗口之外的数据发挥不了作用。为了解决这些问题,本文将生成对抗网络应用于数据的可信度评估,最终构建出的生成对抗网络可以较为全面的考虑已遍历过的数据集的所有数据,且相对于数据规模的时间复杂度为O(n)。(3)针对当前以软集为理论基础的特征选择算法其时间复杂度为指数级的问题,本文通过将软集理论与概率论结合,提出了软方差的概念,从理论上验证了软方差作为软集的特征选择的指标的意义,并提出了一种求解软集参数约简的近似算法,相较于传统算法指数级的时间复杂度以及复杂度不确定(通常视为指数级复杂度)的01线性规划算法而言,该算法在大数据背景下时间复杂度为O(n)。通过上述的研究,结合当前的Web技术,实现让非机器学习专业的用户也可以应用的数据预测平台。考虑到机器学习算法十分消耗计算资源,并且项目较为复杂,本文采用Spring Cloud作为服务器设计的框架,为了实现图形化程序设计,使用当前较为流行的Web端框架Vue+Element UI,另外机器学习使用python语言,为了后续能实现多语言支持,使用远程调用技术,将python的计算进行了服务化。为了简化使用条件,使用当前的REST API的设计思想,构建了一个面向资源的数据预测系统。通过实现的系统,对常用的数据预测方法进行了较为全面的测试实验,从特征工程和预测算法中选取了五个子过程,分别测试这五个子过程对于最终数据预测算法准确度的影响,实验表明了机器学习中各个阶段的实际作用。
数据预测的图形化编程及应用
这是一篇关于数据预测,图形化编程,分布式,REST API,特征工程的论文, 主要内容为数据预测在诸多方面都有需求,但是实际使用时难度较大。当前各行业使用的数据预测方法层出不穷、各个算法的可适用范围也不相同,这给程序设计人员在使用的时候造成了较大的困难。通常需要专业的知识才可以进行数据预测的模型设计,同时还需要具备一些应用型程序设计知识,才能较成功的呈现出算法的结果。为了解决这些问题,本文将图形化编程的思想应用于基于机器学习的数据预测中,从理论和实践两方面论述如何对基于机器学习的数据预测算法进行简化,最终实现一个可以给非机器学习专业用户也能使用的数据预测平台,同时对其中的某些步骤进行了研究和改进。本文的具体研究内容和创新点如下:(1)当前机器学习领域内,特别是在机器学习在预测算法的应用上,各种算法之间没有明确的种类划分,导致了无法对算法按执行顺序进行排序,因此无法确定算法之间能否同时使用,为了解决这个问题,参考大数据、数据科学以及机器学习领域的知识,提出一种机器学习的分步方法,将机器学习总体拆分成了三个大阶段(特征工程,模型设计和结果评估),共十个小阶段,通过这种划分可以达成对算法进行顺序的区分,进而通过数据预测的应用背景将各层算法之间进行结合,从而实现图形化编程的效果。(2)在实际应用背景下,数据来源不一定可靠,因此需要对数据进行可信计算。目前流行的可信度评估机制是滑动窗口机制,其在可信度评估时通常需要遍历整个窗口内的数据,当结合KNN、SVM之类的算法使用时,其在滑动窗口内相对于数据规模的时间复杂度都不小于O(n2),并且滑动窗口之外的数据发挥不了作用。为了解决这些问题,本文将生成对抗网络应用于数据的可信度评估,最终构建出的生成对抗网络可以较为全面的考虑已遍历过的数据集的所有数据,且相对于数据规模的时间复杂度为O(n)。(3)针对当前以软集为理论基础的特征选择算法其时间复杂度为指数级的问题,本文通过将软集理论与概率论结合,提出了软方差的概念,从理论上验证了软方差作为软集的特征选择的指标的意义,并提出了一种求解软集参数约简的近似算法,相较于传统算法指数级的时间复杂度以及复杂度不确定(通常视为指数级复杂度)的01线性规划算法而言,该算法在大数据背景下时间复杂度为O(n)。通过上述的研究,结合当前的Web技术,实现让非机器学习专业的用户也可以应用的数据预测平台。考虑到机器学习算法十分消耗计算资源,并且项目较为复杂,本文采用Spring Cloud作为服务器设计的框架,为了实现图形化程序设计,使用当前较为流行的Web端框架Vue+Element UI,另外机器学习使用python语言,为了后续能实现多语言支持,使用远程调用技术,将python的计算进行了服务化。为了简化使用条件,使用当前的REST API的设计思想,构建了一个面向资源的数据预测系统。通过实现的系统,对常用的数据预测方法进行了较为全面的测试实验,从特征工程和预测算法中选取了五个子过程,分别测试这五个子过程对于最终数据预测算法准确度的影响,实验表明了机器学习中各个阶段的实际作用。
数据预测的图形化编程及应用
这是一篇关于数据预测,图形化编程,分布式,REST API,特征工程的论文, 主要内容为数据预测在诸多方面都有需求,但是实际使用时难度较大。当前各行业使用的数据预测方法层出不穷、各个算法的可适用范围也不相同,这给程序设计人员在使用的时候造成了较大的困难。通常需要专业的知识才可以进行数据预测的模型设计,同时还需要具备一些应用型程序设计知识,才能较成功的呈现出算法的结果。为了解决这些问题,本文将图形化编程的思想应用于基于机器学习的数据预测中,从理论和实践两方面论述如何对基于机器学习的数据预测算法进行简化,最终实现一个可以给非机器学习专业用户也能使用的数据预测平台,同时对其中的某些步骤进行了研究和改进。本文的具体研究内容和创新点如下:(1)当前机器学习领域内,特别是在机器学习在预测算法的应用上,各种算法之间没有明确的种类划分,导致了无法对算法按执行顺序进行排序,因此无法确定算法之间能否同时使用,为了解决这个问题,参考大数据、数据科学以及机器学习领域的知识,提出一种机器学习的分步方法,将机器学习总体拆分成了三个大阶段(特征工程,模型设计和结果评估),共十个小阶段,通过这种划分可以达成对算法进行顺序的区分,进而通过数据预测的应用背景将各层算法之间进行结合,从而实现图形化编程的效果。(2)在实际应用背景下,数据来源不一定可靠,因此需要对数据进行可信计算。目前流行的可信度评估机制是滑动窗口机制,其在可信度评估时通常需要遍历整个窗口内的数据,当结合KNN、SVM之类的算法使用时,其在滑动窗口内相对于数据规模的时间复杂度都不小于O(n2),并且滑动窗口之外的数据发挥不了作用。为了解决这些问题,本文将生成对抗网络应用于数据的可信度评估,最终构建出的生成对抗网络可以较为全面的考虑已遍历过的数据集的所有数据,且相对于数据规模的时间复杂度为O(n)。(3)针对当前以软集为理论基础的特征选择算法其时间复杂度为指数级的问题,本文通过将软集理论与概率论结合,提出了软方差的概念,从理论上验证了软方差作为软集的特征选择的指标的意义,并提出了一种求解软集参数约简的近似算法,相较于传统算法指数级的时间复杂度以及复杂度不确定(通常视为指数级复杂度)的01线性规划算法而言,该算法在大数据背景下时间复杂度为O(n)。通过上述的研究,结合当前的Web技术,实现让非机器学习专业的用户也可以应用的数据预测平台。考虑到机器学习算法十分消耗计算资源,并且项目较为复杂,本文采用Spring Cloud作为服务器设计的框架,为了实现图形化程序设计,使用当前较为流行的Web端框架Vue+Element UI,另外机器学习使用python语言,为了后续能实现多语言支持,使用远程调用技术,将python的计算进行了服务化。为了简化使用条件,使用当前的REST API的设计思想,构建了一个面向资源的数据预测系统。通过实现的系统,对常用的数据预测方法进行了较为全面的测试实验,从特征工程和预测算法中选取了五个子过程,分别测试这五个子过程对于最终数据预测算法准确度的影响,实验表明了机器学习中各个阶段的实际作用。
Hadoop集群管理系统的设计与实现
这是一篇关于Hadoop集群管理工具,MVC模式,Akka框架,Hibernate,REST API的论文, 主要内容为本文设计并实现了一个Hadoop集群管理系统。该系统提供了独有的基于浏览器的集群安装和管理界面,解决开源版本管理困难的问题,同时还提供网页和邮件方式的系统异常报警机制。通过这一功能强大且易于使用的工具,用户可以可视化地完成包括集群的安装、配置、管理、优化等在内的所有对Hadoop集群的操作,从而专注于从Hadoop环境获得最大的业务价值,而不必担心集群管理的问题。本文的主要工作有:1)阐述项目的研究背景,分析项目的意义和应用前景,并综述和分析了Hadoop相关研究成果;2)详细地分析了系统的功能和非功能需求,并分析了相关技术选型的思路;3)设计系统整体框架,对各个主要模块进行详细的分析和设计。系统整体采用Akka+Spring MVC架构,并使用Hibernate框架封装对数据库的操作。4)阐述系统开发过程中使用到的部分关键技术与算法,提供较为详细的解释和说明。项目完成后,经实验证实,在亚马逊35台节点上,使用该系统安装一个包括所有Hadoop组件的集群,只需要3分钟。在Apache Hadoop软件的英特尔发行版在中国推广的两年多时间里,已经在电信行业、智能交通行业、金融行业和医疗卫生行业有多个成功应用,受到了包括中国农业银行等多家企业在内的一致好评。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设导航 ,原文地址:https://bishedaima.com/lunwen/51094.html