基于Zookeeper的大数据处理调度系统的设计与实现
这是一篇关于大数据处理,任务调度,分布式系统,Zookeeper,有向无环图的论文, 主要内容为随着大数据时代的到来,如何对海量数据进行处理、分析,从而获取商业价值,已经成为了越来越多公司重点关注的问题,同时也给任务调度带来了不少挑战。首先,在大数据处理中,由于数据处理量极大,单机处理会给企业带来巨大的时间成本;其次,在单个数据处理的工作流中,可能存在工作流内部各个任务之间有上下游依赖的情况,如果仅通过传统的定时任务库如Quartz来处理,则十分麻烦,难以掌控;另外,虽然有诸如Airflow的调度系统利用了有向无环图的概念来构建工作流,但是因为其构建需要通过编程来实现,又形成了较高的使用门槛。针对以上大数据处理任务调度中的问题,以及考虑到实习公司在数据处理中调度规模的使用情况,单工作流可包含上百个任务,日均调度量十万级,因此,设计并实现了一款任务调度系统。采用多Master多Worker分布式系统架构,创建工作流时采用了可视化有向无环图的方式,这两个特点分别能够大幅缩短数据处理的用时以及降低使用门槛。此分布式系统基于分布式协调框架Zookeeper构建,实现了高可用性,保证在系统内,部分组件失效时仍然能够执行任务。由于许多场景下数据处理需要定时进行,因此基于Quartz实现了对定时任务的支持。任务调度系统的Web前后端分别是基于Spring Boot框架以及Vue.js前端框架实现,实现了对工作流的管理以及对任务执行日志的查看功能,为运维工程师和应用开发者提供了易于使用的交互界面。任务调度系统在实现对数据处理任务进行调度的基础上,吸取了分布式系统的可扩展性优势,以及采用可视化图模型的表达力和表现力强的优势,使得用户可以更容易的对大数据任务处理进行调度,满足了实习公司在对海量数据进行处理时,对调度系统的功能和性能需求。
基于边缘计算的在轨协同计算策略研究
这是一篇关于低轨通信卫星网络,边缘计算,路径式边缘计算,有向无环图,网络图模型,容器虚拟化技术,微服务的论文, 主要内容为伴随地面移动通信技术的发展,一系列具有极低时延需求的新型信息业务喷薄而出,其中智慧远洋捕捞、海洋垃圾智慧清理等业务还包含特殊的地理位置需求。此类新型信息业务在时延和覆盖范围性能方面均对地面移动通信技术提出了新的挑战。面对新型信息业务提出的挑战,目前的主流解决方案是一种综合业务承载网络架构。该架构以云中心计算平台作为信息业务的主要承载平台,同时辅以广泛部署的边缘计算设备用于处理压缩比高、时延敏感的部分业务,在一定程度上满足了新型信息业务在时延、带宽和可靠性方面的性能需求。但是,受到地理条件的制约,地面移动通信网络有限的覆盖前景与未来无处不在的信息服务需求之间存在巨大的鸿沟。因此,亟需一种针对新型信息业务日益扩大的覆盖范围需求设计的新型网络架构。为弥补综合业务承载网络在覆盖范围方面的不足,低轨通信卫星网络凭借覆盖范围广、不受地理环境限制、星地传输距离短、建造成本低等众多优势成为炙手可热的解决方案。然而,受限于频繁的星地远距离传输,目前透明转发模式的卫星通信技术将无法满足不断发展的信息业务的低时延需求。为能兼顾信息业务的低时延需求,本文基于边缘计算架构提出一种利用低轨通信卫星网络全域的泛在计算、通信资源联合处理信息业务的在轨协同计算策略,以期同时满足信息业务的覆盖范围与时延需求。此外,于在轨协同计算策略的理论基础之上,设计信息业务承载系统仿真平台,希冀从理论推导和仿真实验两个层面探索降低低轨通信卫星网络信息业务处理时延的方法。具体而言,本文主要内容如下:(1)从边缘计算架构、低轨通信卫星网络场景、容器虚拟化技术三个方面依次阐述本工作涉及的国内外研究现状,并且分析了本文所做工作的主要研究内容与创新点,以便指导后续边缘计算架构与低轨通信卫星网络的融合工作。(2)基于路径式边缘计算方案,面向低轨通信卫星网络提出一种路径式的在轨协同计算策略。以业务图模型为指引,通过指定业务有向无环图到低轨通信卫星网络时间扩展图的映射将业务调度到传输路径中的卫星上执行,避免星地远距离传输带来的高时延问题。为了在高动态的低轨通信卫星网络中实现协同计算设想,我们在时间扩展图模型的基础上,增加链路时延权重参数,用于信息业务处理时延分析。仿真结果表明,当数据量取5MB时,在轨协同计算的时延性能相比地面云计算提高了58.9%。(3)在路径式的在轨协同计算策略理论研究基础之上,搭建低轨通信卫星网络系统仿真平台,设计业务规划与承载功能,模拟低轨通信卫星网络协同计算过程。具体来说,首先基于容器虚拟化技术,模拟低轨通信卫星网络实体,然后利用Spring Boot微服务开发框架,面向图片处理类业务,依次实现信息业务预规划、信息业务承载和应用功能库服务。仿真结果表明,当图片链表数据量为1050MB时,相比于地面云中心计算策略,在轨协同计算策略时延性能提升47.0%。
基于标签相关性分析的多标签分类算法研究
这是一篇关于多标签分类,标签相关性,最大生成树,有向无环图,剪枝和分治策略的论文, 主要内容为多标签分类(Multi-label Classification,MLC)研究一个特征样本与多个语义标签之间的关联信息,并用相关标签标记该样本的问题。多标签分类技术在众多的热门实际应用中受到越来越多的关注,例如文本分类、图像标注、信息检索、推荐系统和基因功能预测等。然而在处理多标签分类问题中,由于问题的复杂性,多标签分类面临如何有效利用标签相关信息、类别不平衡和特征冗余等问题。虽然近些年来不少分类效果优异的多标签分类算法被陆续提出,但它们在利用标签相关性上仅仅进行了初步探索,并没有最大程度上考虑标签相关信息。另外这些算法仅局限于对多标签分类所面临的其中一个问题进行研究和解决。针对已有算法存在的不足,本文提出两个新的多标签分类算法。具体研究内容如下:1)最大生成树是一棵以边权值和最大来建立的生成树,在许多工程应用中取得不错的应用效果。受此启发,本文提出基于最大生成树和有向无环图的多标签分类器链算法(max STCC)。该算法通过计算标签之间的相关程度来建立标签的最大生成树,以此来最大化考虑和利用标签相关信息。随后通过条件熵定义标签之间相互决策难度并以此作为标签之间相互依赖指向的度量,以决策难度较小为依赖方向,进而将最大生成树转化为有向无环图,之后使用拓扑排序将有向无环图中的标签输出为标签排序。最后对优化后的标签排序使用分类器链算法进行训练和预测。所提max STCC算法在公开的7个数据集上和其他相关算法进行实验对比,通过对实验结果进行分析,max STCC算法在各方面取得了优异的分类效果,肯定了本算法在探索和利用标签相关信息方面的贡献。2)现实世界中,标签之间并不总是相关的,引入不必要的标签相关性将会给分类器带去负面影响。据此本文提出剪枝和分治策略的多标签分类算法(MLCb PDC)。该算法按照标签之间的相关程度对标签进行剪枝,将标签分为叶子标签和枝干标签,为了缓解类不平衡问题,同时将特征集也划分为叶子和枝干标签对应的特征数据子集。由于叶子标签相互之间的相关程度较低,处理时不再考虑标签相关性,同时为了提高分类精度,解决冗余和不相关特征带来的属性噪声问题,提出RFBR算法来解决叶子标签集合的分类问题。针对枝干标签,本文采用堆叠结构来利用枝干标签之间的相关信息,提出max STCC-BR算法处理枝干标签集合的分类问题。综合叶子标签和枝干标签的预测标签作为最终结果。将MLCb PDC和其它相关算法在7个公开的数据集上进行实验对比,实验结果验证了MLCb PDC算法的有效性,证明对相关程度不同的标签进行针对性处理的确能够提高分类精度。
基于开发者能力成长模型的缺陷自动分派研究
这是一篇关于开源软件,缺陷分派,能力成长模型,有向无环图,记忆网络的论文, 主要内容为如何进行高效且准确的缺陷自动分派是开源软件缺陷管理的难点问题,已经有很多研究者提出了各种方法。现有的方法往往忽略了历史修复数据的时序特征,将几年甚至近十年的数据统一输入设计的模型中,学习历史数据中缺陷和开发者匹配之间的统计规律为新缺陷推荐开发者。然而,开发者在参与项目期间对项目的关注点和擅长的知识是存在变化的,仅依赖宏观上的统计规律不能准确的表达当前缺陷和开发者的匹配情况,为缺陷分派合适的开发者取决于缺陷的知识需求和开发者当前专业能力的精准匹配。因此本文从构建开发者能力成长模型的角度出发,研究如何准确构建开发者当前的能力表示,实现缺陷的精准分派。本文的主要贡献包括:其一:针对现有方法大多都是根据统计规律为缺陷推荐开发者,较少从缺陷的知识需求和开发者专业能力匹配角度提升缺陷分派的准确率的问题,更没有考虑开发者当前的知识擅长与关注点,本文提出了基于开发者时序知识表征的缺陷自动分派方法。首先根据首次分派方法得到初始开发者推荐列表;其次根据开发者最近修复缺陷的关注点学习其当前擅长的知识,基于开发者历史修复缺陷和遗忘函数表征开发者当前的专业能力;最后通过缺陷的知识需求和开发者专业能力的相似度匹配对初始开发者推荐列表进行优化调整。在Eclipse和Mozilla数据集上进行了与首次分派方法和其他优化调整算法的对比实验,实验结果显示本方法可以明显提升首次分派方法的推荐准确率,并能尽早的推荐出最终修复者,证明了开发者能力成长模型对优化初始开发者推荐列表、提升缺陷分派的准确性有着明显的作用。其二:针对本文第一个工作中的问题:在刻画开发者的专业能力时忽略了抛掷路径中蕴含的开发者之间的协作关系,本文提出了协作环境下融合开发者时序知识表征的缺陷自动分派方法。首先根据开发者的社区属性为新的缺陷筛选候选开发者;其次将所有缺陷的抛掷路径在时序关系下依次融入有向无环图中构建开发者协作关系图,基于记忆网络表征协作环境下开发者的能力特征,记忆网络根据开发者协作关系图时序地学习开发者的专业能力,通过不断更新开发者的记忆空间学习开发者当前擅长的专业知识;最后根据缺陷的知识需求和候选开发者的专业能力的匹配为缺陷推荐最终开发者。同样在Eclipse和Mozilla数据集上进行了消融实验和对比实验,在两个数据集上的推荐准确率超过了基准方法和第一工作的方法,分别达到了90.5%和72.1%。
基于边缘计算的在轨协同计算策略研究
这是一篇关于低轨通信卫星网络,边缘计算,路径式边缘计算,有向无环图,网络图模型,容器虚拟化技术,微服务的论文, 主要内容为伴随地面移动通信技术的发展,一系列具有极低时延需求的新型信息业务喷薄而出,其中智慧远洋捕捞、海洋垃圾智慧清理等业务还包含特殊的地理位置需求。此类新型信息业务在时延和覆盖范围性能方面均对地面移动通信技术提出了新的挑战。面对新型信息业务提出的挑战,目前的主流解决方案是一种综合业务承载网络架构。该架构以云中心计算平台作为信息业务的主要承载平台,同时辅以广泛部署的边缘计算设备用于处理压缩比高、时延敏感的部分业务,在一定程度上满足了新型信息业务在时延、带宽和可靠性方面的性能需求。但是,受到地理条件的制约,地面移动通信网络有限的覆盖前景与未来无处不在的信息服务需求之间存在巨大的鸿沟。因此,亟需一种针对新型信息业务日益扩大的覆盖范围需求设计的新型网络架构。为弥补综合业务承载网络在覆盖范围方面的不足,低轨通信卫星网络凭借覆盖范围广、不受地理环境限制、星地传输距离短、建造成本低等众多优势成为炙手可热的解决方案。然而,受限于频繁的星地远距离传输,目前透明转发模式的卫星通信技术将无法满足不断发展的信息业务的低时延需求。为能兼顾信息业务的低时延需求,本文基于边缘计算架构提出一种利用低轨通信卫星网络全域的泛在计算、通信资源联合处理信息业务的在轨协同计算策略,以期同时满足信息业务的覆盖范围与时延需求。此外,于在轨协同计算策略的理论基础之上,设计信息业务承载系统仿真平台,希冀从理论推导和仿真实验两个层面探索降低低轨通信卫星网络信息业务处理时延的方法。具体而言,本文主要内容如下:(1)从边缘计算架构、低轨通信卫星网络场景、容器虚拟化技术三个方面依次阐述本工作涉及的国内外研究现状,并且分析了本文所做工作的主要研究内容与创新点,以便指导后续边缘计算架构与低轨通信卫星网络的融合工作。(2)基于路径式边缘计算方案,面向低轨通信卫星网络提出一种路径式的在轨协同计算策略。以业务图模型为指引,通过指定业务有向无环图到低轨通信卫星网络时间扩展图的映射将业务调度到传输路径中的卫星上执行,避免星地远距离传输带来的高时延问题。为了在高动态的低轨通信卫星网络中实现协同计算设想,我们在时间扩展图模型的基础上,增加链路时延权重参数,用于信息业务处理时延分析。仿真结果表明,当数据量取5MB时,在轨协同计算的时延性能相比地面云计算提高了58.9%。(3)在路径式的在轨协同计算策略理论研究基础之上,搭建低轨通信卫星网络系统仿真平台,设计业务规划与承载功能,模拟低轨通信卫星网络协同计算过程。具体来说,首先基于容器虚拟化技术,模拟低轨通信卫星网络实体,然后利用Spring Boot微服务开发框架,面向图片处理类业务,依次实现信息业务预规划、信息业务承载和应用功能库服务。仿真结果表明,当图片链表数据量为1050MB时,相比于地面云中心计算策略,在轨协同计算策略时延性能提升47.0%。
基于开发者能力成长模型的缺陷自动分派研究
这是一篇关于开源软件,缺陷分派,能力成长模型,有向无环图,记忆网络的论文, 主要内容为如何进行高效且准确的缺陷自动分派是开源软件缺陷管理的难点问题,已经有很多研究者提出了各种方法。现有的方法往往忽略了历史修复数据的时序特征,将几年甚至近十年的数据统一输入设计的模型中,学习历史数据中缺陷和开发者匹配之间的统计规律为新缺陷推荐开发者。然而,开发者在参与项目期间对项目的关注点和擅长的知识是存在变化的,仅依赖宏观上的统计规律不能准确的表达当前缺陷和开发者的匹配情况,为缺陷分派合适的开发者取决于缺陷的知识需求和开发者当前专业能力的精准匹配。因此本文从构建开发者能力成长模型的角度出发,研究如何准确构建开发者当前的能力表示,实现缺陷的精准分派。本文的主要贡献包括:其一:针对现有方法大多都是根据统计规律为缺陷推荐开发者,较少从缺陷的知识需求和开发者专业能力匹配角度提升缺陷分派的准确率的问题,更没有考虑开发者当前的知识擅长与关注点,本文提出了基于开发者时序知识表征的缺陷自动分派方法。首先根据首次分派方法得到初始开发者推荐列表;其次根据开发者最近修复缺陷的关注点学习其当前擅长的知识,基于开发者历史修复缺陷和遗忘函数表征开发者当前的专业能力;最后通过缺陷的知识需求和开发者专业能力的相似度匹配对初始开发者推荐列表进行优化调整。在Eclipse和Mozilla数据集上进行了与首次分派方法和其他优化调整算法的对比实验,实验结果显示本方法可以明显提升首次分派方法的推荐准确率,并能尽早的推荐出最终修复者,证明了开发者能力成长模型对优化初始开发者推荐列表、提升缺陷分派的准确性有着明显的作用。其二:针对本文第一个工作中的问题:在刻画开发者的专业能力时忽略了抛掷路径中蕴含的开发者之间的协作关系,本文提出了协作环境下融合开发者时序知识表征的缺陷自动分派方法。首先根据开发者的社区属性为新的缺陷筛选候选开发者;其次将所有缺陷的抛掷路径在时序关系下依次融入有向无环图中构建开发者协作关系图,基于记忆网络表征协作环境下开发者的能力特征,记忆网络根据开发者协作关系图时序地学习开发者的专业能力,通过不断更新开发者的记忆空间学习开发者当前擅长的专业知识;最后根据缺陷的知识需求和候选开发者的专业能力的匹配为缺陷推荐最终开发者。同样在Eclipse和Mozilla数据集上进行了消融实验和对比实验,在两个数据集上的推荐准确率超过了基准方法和第一工作的方法,分别达到了90.5%和72.1%。
基于Zookeeper的大数据处理调度系统的设计与实现
这是一篇关于大数据处理,任务调度,分布式系统,Zookeeper,有向无环图的论文, 主要内容为随着大数据时代的到来,如何对海量数据进行处理、分析,从而获取商业价值,已经成为了越来越多公司重点关注的问题,同时也给任务调度带来了不少挑战。首先,在大数据处理中,由于数据处理量极大,单机处理会给企业带来巨大的时间成本;其次,在单个数据处理的工作流中,可能存在工作流内部各个任务之间有上下游依赖的情况,如果仅通过传统的定时任务库如Quartz来处理,则十分麻烦,难以掌控;另外,虽然有诸如Airflow的调度系统利用了有向无环图的概念来构建工作流,但是因为其构建需要通过编程来实现,又形成了较高的使用门槛。针对以上大数据处理任务调度中的问题,以及考虑到实习公司在数据处理中调度规模的使用情况,单工作流可包含上百个任务,日均调度量十万级,因此,设计并实现了一款任务调度系统。采用多Master多Worker分布式系统架构,创建工作流时采用了可视化有向无环图的方式,这两个特点分别能够大幅缩短数据处理的用时以及降低使用门槛。此分布式系统基于分布式协调框架Zookeeper构建,实现了高可用性,保证在系统内,部分组件失效时仍然能够执行任务。由于许多场景下数据处理需要定时进行,因此基于Quartz实现了对定时任务的支持。任务调度系统的Web前后端分别是基于Spring Boot框架以及Vue.js前端框架实现,实现了对工作流的管理以及对任务执行日志的查看功能,为运维工程师和应用开发者提供了易于使用的交互界面。任务调度系统在实现对数据处理任务进行调度的基础上,吸取了分布式系统的可扩展性优势,以及采用可视化图模型的表达力和表现力强的优势,使得用户可以更容易的对大数据任务处理进行调度,满足了实习公司在对海量数据进行处理时,对调度系统的功能和性能需求。
基于边缘计算的在轨协同计算策略研究
这是一篇关于低轨通信卫星网络,边缘计算,路径式边缘计算,有向无环图,网络图模型,容器虚拟化技术,微服务的论文, 主要内容为伴随地面移动通信技术的发展,一系列具有极低时延需求的新型信息业务喷薄而出,其中智慧远洋捕捞、海洋垃圾智慧清理等业务还包含特殊的地理位置需求。此类新型信息业务在时延和覆盖范围性能方面均对地面移动通信技术提出了新的挑战。面对新型信息业务提出的挑战,目前的主流解决方案是一种综合业务承载网络架构。该架构以云中心计算平台作为信息业务的主要承载平台,同时辅以广泛部署的边缘计算设备用于处理压缩比高、时延敏感的部分业务,在一定程度上满足了新型信息业务在时延、带宽和可靠性方面的性能需求。但是,受到地理条件的制约,地面移动通信网络有限的覆盖前景与未来无处不在的信息服务需求之间存在巨大的鸿沟。因此,亟需一种针对新型信息业务日益扩大的覆盖范围需求设计的新型网络架构。为弥补综合业务承载网络在覆盖范围方面的不足,低轨通信卫星网络凭借覆盖范围广、不受地理环境限制、星地传输距离短、建造成本低等众多优势成为炙手可热的解决方案。然而,受限于频繁的星地远距离传输,目前透明转发模式的卫星通信技术将无法满足不断发展的信息业务的低时延需求。为能兼顾信息业务的低时延需求,本文基于边缘计算架构提出一种利用低轨通信卫星网络全域的泛在计算、通信资源联合处理信息业务的在轨协同计算策略,以期同时满足信息业务的覆盖范围与时延需求。此外,于在轨协同计算策略的理论基础之上,设计信息业务承载系统仿真平台,希冀从理论推导和仿真实验两个层面探索降低低轨通信卫星网络信息业务处理时延的方法。具体而言,本文主要内容如下:(1)从边缘计算架构、低轨通信卫星网络场景、容器虚拟化技术三个方面依次阐述本工作涉及的国内外研究现状,并且分析了本文所做工作的主要研究内容与创新点,以便指导后续边缘计算架构与低轨通信卫星网络的融合工作。(2)基于路径式边缘计算方案,面向低轨通信卫星网络提出一种路径式的在轨协同计算策略。以业务图模型为指引,通过指定业务有向无环图到低轨通信卫星网络时间扩展图的映射将业务调度到传输路径中的卫星上执行,避免星地远距离传输带来的高时延问题。为了在高动态的低轨通信卫星网络中实现协同计算设想,我们在时间扩展图模型的基础上,增加链路时延权重参数,用于信息业务处理时延分析。仿真结果表明,当数据量取5MB时,在轨协同计算的时延性能相比地面云计算提高了58.9%。(3)在路径式的在轨协同计算策略理论研究基础之上,搭建低轨通信卫星网络系统仿真平台,设计业务规划与承载功能,模拟低轨通信卫星网络协同计算过程。具体来说,首先基于容器虚拟化技术,模拟低轨通信卫星网络实体,然后利用Spring Boot微服务开发框架,面向图片处理类业务,依次实现信息业务预规划、信息业务承载和应用功能库服务。仿真结果表明,当图片链表数据量为1050MB时,相比于地面云中心计算策略,在轨协同计算策略时延性能提升47.0%。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码工厂 ,原文地址:https://bishedaima.com/lunwen/52723.html