基于Hadoop的个性化推荐系统的设计与实现
这是一篇关于推荐系统,Hadoop,协同过滤,并行化,用户特征,项目特征的论文, 主要内容为随着互联网的普及与迅猛发展,产生信息成本的降低与传播信息途径的增多,导致了信息的爆炸式增长。互联网中的海量信息给用户带来了信息过载的困扰。推荐系统可以为广大用户在互联网的信息海洋中,快速有效地定位符合用户自身喜好的个性化信息,是解决信息过载问题的一种有效方法。另外,随着系统数据量的急剧增长,传统单机模式会难以负荷如此海量的数据,推荐过程中的运算难以进行,会遭遇较为严重的扩展瓶颈。因此,大规模数据量对推荐系统的实现提出了新要求。本文重点研究了提高推荐准确度与系统的可扩展性及运行效率的问题。为改善传统协同过滤推荐算法存在的冷启动和数据稀疏性问题,本文首先在用户相似度计算中引入了用户特征因素,使那些没有历史评分数据或者评分数据十分稀疏的用户可以基于自身特征发现相似用户集,从而初步为这些用户产生未评分项的预测评分,对原本稀疏的数据集进行填充。随后,在填充后变得密集的数据集上,利用项目自身属性提高项目间相似度计算的准确性,从而能更加准确地预测用户的喜好。通过大量实验研究,确定了用户特征和项目特征在相似度计算中的权值。为了提升系统的可扩展性和运行效率,本文引入Hadoop平台实现了数据的分布式处理,运用MapReduce编程框架实现了算法的并行化计算,克服了单机处理的运算瓶颈。利用Hadoop集群,在不同集群节点数的环境下,分别对本文提出的算法进行了实验,分析了算法的推荐准确度,对比了分布式与单机模式的运行效率。最后,对整个系统进行了前端与后台的交互设计,数据存储与展示的实现,以及推荐引擎的搭载。实验结果表明,使用本文所提出的改进算法对用户产生的预测评分的平均绝对偏差MAE值普遍更小,推荐准确度更高。同时搭载Hadoop的分布式架构使得系统具有良好的扩展性,在本文所用的数据集上,分布式处理数据比单机处理的运行时间缩短了近三成。由实验结果也可以看出,数据量越大,并行化计算的优势越明显,可以带来的效率提升越高。
面向通信基带信号处理的可重构阵列处理器研究与设计
这是一篇关于可重构结构,阵列处理器,通信基带算法,计算粒度,并行化的论文, 主要内容为可重构结构具有灵活的信息配置能力,在处理计算密集型和访存密集型应用时拥有巨大潜力。移动通信技术中新兴应用的出现对通信基带信号处理的硬件性能提出了更高的要求,在并行计算领域占有优势的可重构架构成为实现基带信号处理算法的理想硬件平台。然而,在可重构阵列处理器上实现基带信号处理算法时存在适应性差和计算效率低的问题,因此论文研究并设计了面向基带信号处理的可重构阵列处理器。首先,提取通信基带信号处理典型算法的算子,并评估算法的定点精度,以指导可重构阵列处理器的设计。一方面,通过Profile性能分析工具获取快速傅里叶变换(Fast Fourier Transform,FFT)、有限冲激响应(Finite Impulse Response,FIR)和大规模多输入多输出(Multiple-Input Multiple-Output,MIMO)检测算法的特性,提取了抽象的粗粒度算子。另一方面,通过对算法进行定点仿真的实验结果说明,当硬件结构具有15位以上的数据位宽时,定点精度曲线能够收敛。其次,针对基带信号处理算法在可重构阵列处理器上适应性差的问题,设计面向通信应用的可重构处理单元。该处理单元(Process Element,PE)将16位的数据位宽扩展为32位,以适配复数操作。同时,在PE中增加了基带信号处理专用指令。通过可重构处理单元执行复数矩阵乘法的实验结果表明,专用指令的实现方法比通用指令缩短了74%的代码行数,减少了 61%的存储访问次数,且平均相对误差降低了 85%。然后,针对不同粒度数据与底层硬件结构不协调导致计算效率低的问题,提出一种计算粒度动态配置结构。该结构将计算粒度分为8位、16位和32位,设计了数据组合、数据拆分、并行加法和并行乘法四种功能,使阵列结构的并行度和灵活性得到提高。实验结果表明,计算粒度动态配置电路的最大工作频率为133.5MHz,能够实现计算中不同粒度数据的动态配置。最后,开发面向通信基带信号处理的可重构阵列原型系统,设计了 FFT算法、FIR算法和大规模MIMO检测算法的可重构实现方案,并完成现场可编程门阵列(Field Programmable Gate Array,FPGA)验证。可重构实现结果表明,蝶形运算模块并行化方案为8点FFT算法提供了 2.90倍的加速比,滤波计算的流水线并行方案为8阶FIR滤波算法提供了 7.28倍的加速比,Gram矩阵计算并行化方案为大规模MIMO检测算法最大提供了 5.57倍的加速比。基于ZC706开发板的硬件实验结果表明,可重构阵列处理器在112MHz的工作频率下资源占用率低于60%,实现了不同算法在阵列结构上的灵活配置和并行加速。
云边协同服务功能图映射方法及原型系统的设计与实现
这是一篇关于云边协同,服务功能图,服务质量,可靠性,并行化的论文, 主要内容为随着物联网(Internet of things,IoT)和5G技术的发展,物联网中的终端数量和业务种类逐渐增多,并且,用户对服务质量(quality of service,QoS)的要求具有较大差异。传统云中心网络的服务器距离用户较远,难以满足部分业务的时延要求。移动边缘计算(mobile edge computing,MEC)技术可以支持网络服务在边缘侧部署从而缩短服务时延。通过引入MEC技术,形成云边协同物联网(cloud-edge collaborative Internet of things,CECIoT)体系结构,可集成云的计算能力和MEC技术的低延迟特性,有效实现对不同类型业务的差异化管理。同时,传统的网络资源管理方式具有资源固化、网络扩展性低等问题,可以通过引入网络功能虚拟化(nerwork virtualization function,NFV)技术解决。在基于 NFV 技术的 CECIoT架构中,虚拟网络功能(virtual nerwork function,VNF)可以组成服务功能链(service function chain,SFC)在网络中部署,实现云边资源的统一管理。然而现有的SFC部署方案存在以下问题有待解决:1.传统串行的SFC构建和处理方法将导致较高的业务时延;2.1:1的VNF实例备份方式会消耗大量的资源;3.大多数部署方案面向单一业务QoS指标进行性能优化,难以平衡服务质量和网络资源效用。因此,针对CECIoT体系结构中多SFC均衡服务困难的问题,本文提出了一种可靠的服务功能图(service function graph,SFG)构建和映射机制。首先,本文提出了一种基于时延和可靠性的SFG生成机制,实现VNF间的并行编排和多SFC的图形化组合。然后,提出了一种QoS与成本均衡的SFG部署算法,通过对不同SFC业务应用差异化的映射策略,实现延迟和资源消耗的综合优化。最后,设计了一种流量变化感知的SFG均衡缩放算法,根据每条SFC的流量变化将相关节点和链路上的网络服务进行删除、扩展或迁移,从而提高网络服务成功率。仿真结果表明,提出的算法能够有效提升可靠性,并降低平均服务时延和综合资源消耗。进而,为了对所提算法进行验证和应用,本文设计与实现了云边协同服务功能图映射原型系统。首先,完成了系统的需求分析,将原型系统划分为四个模块:CECIoT网络配置模块、用户SFC请求配置模块、SFG映射算法配置模块和算法执行与结果展示模块。然后对系统架构和工作流程进行概要设计,并对各功能模块的工作流程进行详细设计。完成了数据库设计和模块开发实现之后,对系统的功能和性能进行测试。测试结果表明,研发的原型系统能够高效完成SFG在CECIoT中的构建与映射,为该场景下的网络功能部署提供系统支持。
频繁项集挖掘算法的研究与应用
这是一篇关于单向频繁模式树,频繁项集,并行化,Spark平台,推荐系统的论文, 主要内容为随着信息技术的飞速发展及广泛应用,各行各业都积累了大量的数据,利用传统的数据处理技术并不能将数据中隐藏的知识得到充分的发现与利用,因此数据挖掘技术应运而生。关联规则挖掘作为数据挖掘领域的一个重要方法,它能够在海量数据中发现有价值的信息,从而辅助许多商业活动做出恰当的商业决策。关联规则挖掘分为频繁项集挖掘和关联规则生成这两个步骤。而频繁项集挖掘是决定关联规则挖掘效率的关键所在,因此提高频繁项集挖掘效率是关联规则挖掘的研究热点。为了提高频繁项集挖掘效率,本文对FP-Growth相关的算法进行了改进。提出了一种基于单向频繁模式树UFP-tree的频繁项集挖掘算法UFIM(Unidirectional Frequent Itemset Mining Algorithm)。该算法首先构造一种单向频繁模式树UFP-tree,然后在所构造的UFPtree上引入被约束子树,并对指向相同端点和指向不同端点的被约束子树分别采用非递归和递归的方法来挖掘频繁项集。非递归的方法是判断端点的支持度计数是否小于最小支持度计数,若小于最小支持度计数则这棵被约束子树无频繁项集,否则其频繁项集为除根节点外的节点的组合。实验结果表明,UFIM算法的运行速度高于同类算法。为了提高UFIM算法在大数据环境下的频繁项集挖掘效率,本文对UFIM算法在Spark平台的并行化方案进行了设计。该方案首先并行求得频繁1-项集,然后将被单项约束的子树所需要的数据分发到多个子节点,各子节点独立挖掘属于该部分的频繁项集,最后将各节点挖掘的局部频繁项集进行汇总得到全局频繁项集。实验结果表明:基于Spark平台的并行化UFIM算法具有较好的时效性,适用于大数据频繁项集挖掘。为了更好的检验基于Spark并行的UFIM算法的实用性,本文开发了一个简单的图书推荐系统。该系统通过对用户历史购买记录进行分析得到前后件都为图书标识的关联规则,根据用户浏览的图书标识推荐其可能购买的图书。应用结果表明,基于Spark并行的UFIM算法能够有效的应用到图书推荐系统中去,能够准确的进行商品推荐。
基于Hadoop的个性化推荐系统的设计与实现
这是一篇关于推荐系统,Hadoop,协同过滤,并行化,用户特征,项目特征的论文, 主要内容为随着互联网的普及与迅猛发展,产生信息成本的降低与传播信息途径的增多,导致了信息的爆炸式增长。互联网中的海量信息给用户带来了信息过载的困扰。推荐系统可以为广大用户在互联网的信息海洋中,快速有效地定位符合用户自身喜好的个性化信息,是解决信息过载问题的一种有效方法。另外,随着系统数据量的急剧增长,传统单机模式会难以负荷如此海量的数据,推荐过程中的运算难以进行,会遭遇较为严重的扩展瓶颈。因此,大规模数据量对推荐系统的实现提出了新要求。本文重点研究了提高推荐准确度与系统的可扩展性及运行效率的问题。为改善传统协同过滤推荐算法存在的冷启动和数据稀疏性问题,本文首先在用户相似度计算中引入了用户特征因素,使那些没有历史评分数据或者评分数据十分稀疏的用户可以基于自身特征发现相似用户集,从而初步为这些用户产生未评分项的预测评分,对原本稀疏的数据集进行填充。随后,在填充后变得密集的数据集上,利用项目自身属性提高项目间相似度计算的准确性,从而能更加准确地预测用户的喜好。通过大量实验研究,确定了用户特征和项目特征在相似度计算中的权值。为了提升系统的可扩展性和运行效率,本文引入Hadoop平台实现了数据的分布式处理,运用MapReduce编程框架实现了算法的并行化计算,克服了单机处理的运算瓶颈。利用Hadoop集群,在不同集群节点数的环境下,分别对本文提出的算法进行了实验,分析了算法的推荐准确度,对比了分布式与单机模式的运行效率。最后,对整个系统进行了前端与后台的交互设计,数据存储与展示的实现,以及推荐引擎的搭载。实验结果表明,使用本文所提出的改进算法对用户产生的预测评分的平均绝对偏差MAE值普遍更小,推荐准确度更高。同时搭载Hadoop的分布式架构使得系统具有良好的扩展性,在本文所用的数据集上,分布式处理数据比单机处理的运行时间缩短了近三成。由实验结果也可以看出,数据量越大,并行化计算的优势越明显,可以带来的效率提升越高。
高光谱遥感矿产数据并行处理技术及平台研究
这是一篇关于高光谱遥感矿产数据,并行化,矿产信息提取,多目标优化的论文, 主要内容为矿产资源是社会发展中重要的不可再生资源,高光谱遥感技术在勘测地物领域具有广泛的应用,对寻矿、成分分析等矿产工作有着极大的帮助。高光谱遥感数据具有信息量丰富、数据量大以及计算复杂等特点,常用的单机处理方式无法满足其计算需求,采用并行化的方式高效处理高光谱遥感数据是充分发掘矿产资源的关键问题。为提升高光谱遥感岩矿数据处理效率,本文主要研究内容如下:(1)设计了处理高光谱遥感数据的通用型高效计算框架(HRSEGF)。框架通过有向无环图形式表示待执行任务集合,对集合中的任务从子任务并行以及任务节点间并行两方面对矿产数据处理流程进行优化:子任务并行采用并行计算方式降低高光谱数据的处理时间;任务节点间的并行则采用合理的调度算法优化任务流程中的云计算资源分配策略,以更优策略利用云计算资源。(2)针对HRSEGF中子任务并行,构建了高光谱遥感矿产数据信息提取并行优化算法。算法包含高光谱数据降维、端元提取和光谱匹配步骤,从执行过程中的数据存储方式、矩阵计算方式、步骤间衔接方式等方面进行并行优化。通过在不同数据量、不同并行度下的实验验证,表明该并行优化算法在保证信息提取结果正确的基础上能明显提高任务执行效率。(3)为高效执行HRSEGF框架中的矿产任务集合,合理利用计算资源,提出了一种基于混合粒子群算法的高光谱矿产任务多目标调度算法。深入分析启发式算法寻优策略,为混合粒子群调度算法添加一种预生成搜索粒子策略,以及结合粒子群算法和人工鱼群算法设计混合粒子群的新型搜索方式。通过在不同数据集、不同并行度以及不同计算资源数量下的实验验证,混合粒子群算法在矿产任务调度领域能有效缩短任务执行时间、提高负载均衡并契合HRSEGF计算框架。(4)基于Hadoop+Spark+HRSEGF框架搭建实现了高光谱遥感矿产数据处理平台。该平台采用B/S架构,整体设计上采用松耦合的设计模式,具有良好的通用型和可扩展性。平台包含计算资源管理、算法管理以及构建任务流程等多个模块。用户可以按需选择高光谱遥感矿产数据的并行处理算法组件构建整体遥感数据处理DAG任务流程,并根据实际需求选择多种调度算法对执行过程进行优化。矿产数据处理平台满足良好的人机交互性,用户无需掌握Hadoop和Spark的相关知识就能实现高效处理高光谱遥感矿产数据。
高光谱遥感矿产数据并行处理技术及平台研究
这是一篇关于高光谱遥感矿产数据,并行化,矿产信息提取,多目标优化的论文, 主要内容为矿产资源是社会发展中重要的不可再生资源,高光谱遥感技术在勘测地物领域具有广泛的应用,对寻矿、成分分析等矿产工作有着极大的帮助。高光谱遥感数据具有信息量丰富、数据量大以及计算复杂等特点,常用的单机处理方式无法满足其计算需求,采用并行化的方式高效处理高光谱遥感数据是充分发掘矿产资源的关键问题。为提升高光谱遥感岩矿数据处理效率,本文主要研究内容如下:(1)设计了处理高光谱遥感数据的通用型高效计算框架(HRSEGF)。框架通过有向无环图形式表示待执行任务集合,对集合中的任务从子任务并行以及任务节点间并行两方面对矿产数据处理流程进行优化:子任务并行采用并行计算方式降低高光谱数据的处理时间;任务节点间的并行则采用合理的调度算法优化任务流程中的云计算资源分配策略,以更优策略利用云计算资源。(2)针对HRSEGF中子任务并行,构建了高光谱遥感矿产数据信息提取并行优化算法。算法包含高光谱数据降维、端元提取和光谱匹配步骤,从执行过程中的数据存储方式、矩阵计算方式、步骤间衔接方式等方面进行并行优化。通过在不同数据量、不同并行度下的实验验证,表明该并行优化算法在保证信息提取结果正确的基础上能明显提高任务执行效率。(3)为高效执行HRSEGF框架中的矿产任务集合,合理利用计算资源,提出了一种基于混合粒子群算法的高光谱矿产任务多目标调度算法。深入分析启发式算法寻优策略,为混合粒子群调度算法添加一种预生成搜索粒子策略,以及结合粒子群算法和人工鱼群算法设计混合粒子群的新型搜索方式。通过在不同数据集、不同并行度以及不同计算资源数量下的实验验证,混合粒子群算法在矿产任务调度领域能有效缩短任务执行时间、提高负载均衡并契合HRSEGF计算框架。(4)基于Hadoop+Spark+HRSEGF框架搭建实现了高光谱遥感矿产数据处理平台。该平台采用B/S架构,整体设计上采用松耦合的设计模式,具有良好的通用型和可扩展性。平台包含计算资源管理、算法管理以及构建任务流程等多个模块。用户可以按需选择高光谱遥感矿产数据的并行处理算法组件构建整体遥感数据处理DAG任务流程,并根据实际需求选择多种调度算法对执行过程进行优化。矿产数据处理平台满足良好的人机交互性,用户无需掌握Hadoop和Spark的相关知识就能实现高效处理高光谱遥感矿产数据。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕业设计工坊 ,原文地址:https://bishedaima.com/lunwen/45315.html