面向小文件的高性能分布式文件系统研究与设计
这是一篇关于海量小文件,LRFU,文件聚合,分布式文件系统的论文, 主要内容为随着互联网的普及和覆盖率提升,人们的日常生活已经开始全方位接入互联网。由此带来的是数据量的急剧增长,和数据类型的多样化。近些年不断兴起的如短视频直播网站,图片,社交网站等产生的单个数据大小都相对较小,常见在几十KB到几MB之间不等。但是传统的分布式文件系统如GFS,HDFS等都是为大文件存储而优化过的,在面对海量小文件的时候,性能都会急剧下降甚至无法提供服务。如何设计实现一个高吞吐量,高可用的小文件系统也是目前研究的一个热点。FastDFS是一个开源的分布式文件系统,它的主要功能包括文件存储、文件同步和文件访问等,同时能提供大容量和负载均衡的要求。对比其他的分布式文件系统,它的优势是量级较轻,同时又能满足高并发访问,易于扩展等需求。为了针对小文件的存储优化,FastDFS天生支持对小文件进行了合并存储,将大量的小文件聚集成大文件来统一存储,减少元数据的数目,进而提高文件的访问性能。本文从语音小文件存储的应用场景出发,简要介绍了语音小文件存储和分析的特点,对文件聚合算法进行了改进,提出了一种高效的小文件数据分布式文件系统EastDFS(Efficient Access of Small Data in Distributed File Systems)。EastDFS的主要优势在于能加快文件读取的速率,满足一次写入多次读取的需求。EastDFS基本思路是修改文件的聚合算法,通过合理的将同个类型的文件聚合在一起,加快文件读取速率。修改聚合算法之后引入了部分元数据信息,为了保证系统的高可用,则需要对这些元数据信息进行持久化和同步。此外,还将原来的FastDFS系统改进后作为一个数据中心,构造一个能支撑海量存储的分布式系统架构,避免单个机器成为系统瓶颈。更改文件聚合算法之后招致了随机写的问题,为了加快写入速度,本文引入了缓存层。在进行文件写入的时候,直接将小文件的数据写入到缓存中,再由后台线程定时的将聚合起来的文件刷新到磁盘中。缓存算法是基于LRFU进行改进,针对实际命中的贡献率,以及在预测块到达时间上融合了语音小文件独有的特性,更能有效提高命中率。在文件读取方面,将原来单个请求聚合在一起,一次请求多个数据,有效的利用文件聚合后能连续读取的特性,加快系统的读取性能。
基于Hadoop的农业信息资源管理关键技术研究
这是一篇关于Hadoop,农业信息资源,海量小文件,动态副本策略,资源管理系统的论文, 主要内容为目前,我国传统农业生产模式逐步转变为以数字化、信息化和精细化为代表的现代农业发展模式,陆续出现的各类信息系统产生大量农业信息资源。信息资源整合和综合应用趋势日益明显,如何实现海量农业信息资源的有效管理已成为农业信息综合应用亟需解决的关键问题。为解决这一问题,本研究以海量、大小差异性显著的农业信息资源有效管理为目标,在对Hadoop云存储架构分析与移植的基础上,针对Hadoop分布式文件系统(HDFS)在小文件存储不理想和副本分布不均衡两个问题进行算法研究和适应性优化,并使用改进后的HDFS开发实现基于Hadoop的农业信息资源管理系统。本研究主要成果有:(1)通过对NFS、Coda和GFS等分布式文件系统分析得出HDFS适用于农业信息资源管理。首先以HDFS和Map Reduce为重点从内部机理深入分析Hadoop云存储架构,并实现Linux平台中JDK安装、SSH免密码配置以及Hadoop部署等操作;最后基于Web Service技术对云平台进行访问接口扩展,完成Hadoop云平台有效移植。(2)通过分析HDFS中小文件存储的不足,对比现有Hadoop Archive和Sequence File方案的优缺点,提出基于文件合并的优化算法并设计小文件处理模块。针对农业信息资源访问频度不确定性,本研究在对小文件优化的基础上,提出一种基于访问频度的副本动态管理的调控算法FDMDR,该算法在DMDR算法的基础上加入文件访问频度约束,实现资源副本动态管理。(3)基于优化后Hadoop集群,构建农业信息资源管理系统开发平台。采用SSH2框架开发农业信息资源管理软件,主要包括权限管理、文件管理、接口管理和统计分析四大模块。权限管理实现用户的增加、修改、删除等功能;文件管理实现文件的上传、下载、删除和浏览等功能;接口管理提供Web Service接口和HDFS访问接口;统计分析采用分类统计、分区域统计和联合统计三种方式实现对资源的统计分析。本文针对农业信息资源管理时面临大量小文件的实际需求,在Hadoop平台部署、参数优化和算法改进的基础上完成农业信息资源管理系统开发。研究结果表明,该系统能够实现文件、图片和视频等农业信息资源松散组织与统一管理的有效结合,具有功能稳定和可扩展性强等特点。
分布式海量小文件存储访问优化研究与实现
这是一篇关于分布式文件系统,海量小文件,负载均衡,文件合并,性能优化的论文, 主要内容为随着移动互联网的高速发展和快速普及,人们逐步进入万物互联的时代,每天都会产生海量的移动数据信息。特别是近些年不断兴起的短视频社交APP和电商APP,这类APP每天都会产生大量的短视频和图片,它们的数据存储空间相对较小,大都在10M左右。然而当前业界的HDFS、GFS等分布式文件存储系统都是针对大文件设计的,在处理海量小文件的时候其性能会急剧下降,甚至无法正常对外提供服务。设计一个海量小文件的存储访问系统是当前分布式文件系统研究的热点领域。FastDFS是专门针对小文件存储而设计的,本文以FastDFS分布式文件系统作为底层存储系统,提出了一种新的针对海量小文件存储访问优化方法,并对其进行了一系列的优化,主要包括:1)针对当今的短视频社交APP的高并发访问问题,本文提出了一种新的小文件访问负载均衡算法,该算法主要根据后端服务器集群中各个节点的性能来动态地调整其权值,充分考虑后端服务器资源动态使用情况。2)本地文件系统的inode数量有限,存储小文件数量会受到其限制,不能充分利用磁盘空间;本文从短视频APP和电商APP出发,根据短视频文件和商品图片的用户属性对FastDFS的小文件存储过程、合并算法进行改进,将相同属性的小文件合并成一个大文件,达到在访问文件时可以利用磁盘顺序读取方式加快访问速率。3)针对FastDFS记录文件同步过程的缺陷,本文对其进行了优化,通过定期生成检查点文件,然后把检查点文件同步给其它节点,最后结合检查点文件对记录文件进行压缩。针对以上优化方法,本文进行实验仿真。实验结果表明,本文的优化方法在应对高并发写入文件时有11%的性能提升,在读取文件时有25%的性能提升。最后本文实现了基于优化后的分布式海量小文件存储访问系统,可用于存储海量短视频和图片小文件,可以弥补FastDFS的局限性。
基于Hadoop的农业信息资源管理关键技术研究
这是一篇关于Hadoop,农业信息资源,海量小文件,动态副本策略,资源管理系统的论文, 主要内容为目前,我国传统农业生产模式逐步转变为以数字化、信息化和精细化为代表的现代农业发展模式,陆续出现的各类信息系统产生大量农业信息资源。信息资源整合和综合应用趋势日益明显,如何实现海量农业信息资源的有效管理已成为农业信息综合应用亟需解决的关键问题。为解决这一问题,本研究以海量、大小差异性显著的农业信息资源有效管理为目标,在对Hadoop云存储架构分析与移植的基础上,针对Hadoop分布式文件系统(HDFS)在小文件存储不理想和副本分布不均衡两个问题进行算法研究和适应性优化,并使用改进后的HDFS开发实现基于Hadoop的农业信息资源管理系统。本研究主要成果有:(1)通过对NFS、Coda和GFS等分布式文件系统分析得出HDFS适用于农业信息资源管理。首先以HDFS和Map Reduce为重点从内部机理深入分析Hadoop云存储架构,并实现Linux平台中JDK安装、SSH免密码配置以及Hadoop部署等操作;最后基于Web Service技术对云平台进行访问接口扩展,完成Hadoop云平台有效移植。(2)通过分析HDFS中小文件存储的不足,对比现有Hadoop Archive和Sequence File方案的优缺点,提出基于文件合并的优化算法并设计小文件处理模块。针对农业信息资源访问频度不确定性,本研究在对小文件优化的基础上,提出一种基于访问频度的副本动态管理的调控算法FDMDR,该算法在DMDR算法的基础上加入文件访问频度约束,实现资源副本动态管理。(3)基于优化后Hadoop集群,构建农业信息资源管理系统开发平台。采用SSH2框架开发农业信息资源管理软件,主要包括权限管理、文件管理、接口管理和统计分析四大模块。权限管理实现用户的增加、修改、删除等功能;文件管理实现文件的上传、下载、删除和浏览等功能;接口管理提供Web Service接口和HDFS访问接口;统计分析采用分类统计、分区域统计和联合统计三种方式实现对资源的统计分析。本文针对农业信息资源管理时面临大量小文件的实际需求,在Hadoop平台部署、参数优化和算法改进的基础上完成农业信息资源管理系统开发。研究结果表明,该系统能够实现文件、图片和视频等农业信息资源松散组织与统一管理的有效结合,具有功能稳定和可扩展性强等特点。
分布式海量小文件存储访问优化研究与实现
这是一篇关于分布式文件系统,海量小文件,负载均衡,文件合并,性能优化的论文, 主要内容为随着移动互联网的高速发展和快速普及,人们逐步进入万物互联的时代,每天都会产生海量的移动数据信息。特别是近些年不断兴起的短视频社交APP和电商APP,这类APP每天都会产生大量的短视频和图片,它们的数据存储空间相对较小,大都在10M左右。然而当前业界的HDFS、GFS等分布式文件存储系统都是针对大文件设计的,在处理海量小文件的时候其性能会急剧下降,甚至无法正常对外提供服务。设计一个海量小文件的存储访问系统是当前分布式文件系统研究的热点领域。FastDFS是专门针对小文件存储而设计的,本文以FastDFS分布式文件系统作为底层存储系统,提出了一种新的针对海量小文件存储访问优化方法,并对其进行了一系列的优化,主要包括:1)针对当今的短视频社交APP的高并发访问问题,本文提出了一种新的小文件访问负载均衡算法,该算法主要根据后端服务器集群中各个节点的性能来动态地调整其权值,充分考虑后端服务器资源动态使用情况。2)本地文件系统的inode数量有限,存储小文件数量会受到其限制,不能充分利用磁盘空间;本文从短视频APP和电商APP出发,根据短视频文件和商品图片的用户属性对FastDFS的小文件存储过程、合并算法进行改进,将相同属性的小文件合并成一个大文件,达到在访问文件时可以利用磁盘顺序读取方式加快访问速率。3)针对FastDFS记录文件同步过程的缺陷,本文对其进行了优化,通过定期生成检查点文件,然后把检查点文件同步给其它节点,最后结合检查点文件对记录文件进行压缩。针对以上优化方法,本文进行实验仿真。实验结果表明,本文的优化方法在应对高并发写入文件时有11%的性能提升,在读取文件时有25%的性能提升。最后本文实现了基于优化后的分布式海量小文件存储访问系统,可用于存储海量短视频和图片小文件,可以弥补FastDFS的局限性。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码货栈 ,原文地址:https://bishedaima.com/lunwen/51748.html