面向NLP领域中稀疏模型的分布式训练优化技术研究
这是一篇关于深度学习,分布式训练,数据并行,稀疏模型,模型平均的论文, 主要内容为近年来,深度学习技术发展迅速,在计算机视觉、自然语言处理等领域得到广泛应用。伴随深度神经网络模型的性能提升,模型的参数量、计算量也有了显著的增长,单个计算设备的性能已经不能满足大模型、大数据下的训练需求,分布式训练成为加速深度神经网络模型训练的必要手段。然而,现有的分布式训练优化技术主要针对计算机视觉领域的稠密模型,不能有效应用于稀疏模型的分布式训练。稀疏模型广泛应用于自然语言处理、推荐系统等多个领域,由于在参数存储、梯度表示等多个方面与稠密模型存在区别,导致现有的分布式训练方法不能在稀疏模型上取得有效的加速效果。本文面向自然语言处理领域中的稀疏模型的分布式训练优化技术开展研究,主要工作和创新点如下:针对自然语言处理领域中稀疏模型中稀疏参数量大、通信开销高的问题,提出了一种稀疏感知的混合模型平均优化算法(SA-HMA)。该算法考虑到稀疏模型的稀疏更新特性,将模型的参数划分为稀疏和稠密两个部分,分别采用不同的聚合方式进行模型参数的同步。对于模型参数的稠密部分使用原有的同步算法进行聚合,对于模型参数的稀疏部分使用基于模型平均算法的方式进行聚合。在LM语言模型和NMT机器翻译模型上的实验表明,相比主流分布式训练方法,该算法能分别缩短约76%和58%的收敛时间。考虑到稀疏参数的聚合周期内只有部分参数进行更新的特点,提出了一种基于参数增量的高效模型聚合算法。该算法设计并使用增量数组记录需要同步的模型参数信息。同时,为了避免在参数稀疏程度不高时对增量数组的维护带来的额外开销,设计了一种动态的通信策略选择机制,以在不同的模型下提高训练的吞吐率,缩短训练时间。实验表明,该算法相对于稀疏感知的混合模型平均优化算法,能够进一步提高5%-13%的分布式训练吞吐率,相比主流分布式训练方法,最多能缩短约80%的收敛时间。
大规模模型训练支撑平台的设计与实现
这是一篇关于推荐,大规模模型,分布式训练,稀疏参数的论文, 主要内容为伴随着互联网时代的高速发展,信息技术得到提升,推荐系统应运而生,并逐渐在广大人民的日常生活中,成为了不可取代的一部分。随着推荐系统的发展,推荐系统的深度学习模型不断精进,推荐内容也随着时间以指数级速度增长。稀疏参数是推荐业务场景的典型特征,在推荐内容快速增长和业务规模庞大复杂的双重挑战下,行业内为了支撑大规模模型的训练和提高模型训练的性能,几乎每家推荐相关的互联网公司都需要拥有自己的大规模分布式稀疏参数深度学习模型训练支撑平台。如何给推荐业务场景下稀疏参数大规模模型分布式训练提供更好的解决方案,并且优化推荐业务场景从离线侧训练到在线侧生产服务的流程,是一个非常有意义的研究课题。本人从事实习工作的公司有着推荐系统相关领域的业务,基于推荐业务的场景,开发了大规模模型训练支撑平台,为算法人员提供了一个能够支持大规模分布式稀疏参数深度学习模型训练的训练支撑平台,使算法人员能够屏蔽掉开发困难,更加关注于模型本身的训练任务,提供了任务管理和集群管理的相关功能。同时针对离线侧模型训练到在线侧生产服务的全流程,都给出了完备的解决方案,支持了公司稀疏参数大规模模型分布式训练的推荐业务场景,为推荐系统的发展提供了支持。本人在项目进展的过程当中,对推荐业务场景的研究现状和相关行业的背景做了调研,学习了业内解决方案的相关技术,涉及到基于Tensorflow的支持动态特征的稀疏域隔离方案,Yarn的分布式集群训练方案,以及在线侧生产服务的解决方案。在需求分析阶段,根据实际的业务场景,深入调研,确定了使用平台的算法人员的真实需求。在概要设计阶段,对平台从离线侧到在线侧的各个模块,针对性的给出具体的解决方案。在详细设计阶段,基于概要设计阶段的相关技术,对各个模块进行功能开发和代码编写实现。并且在开发结束之后对平台的各个模块进行功能相关的测试验证。目前该平台已经面向公司内部上线,上线后正常运行,使用效果良好,开发团队能够根据平台使用用户的反馈和建议对平台不断地进行升级、维护和开发新需求,使平台变得更加完善。
基于GPU共享的分布式训练调度策略的研究
这是一篇关于分布式训练,GPU共享,任务调度,负载均衡,Kubernetes的论文, 主要内容为近几年来,深度学习在计算机视觉、自然语言处理、推荐系统等领域取得了巨大的成功。随着深度学习技术的飞速发展,神经网络模型变得复杂,训练数据集规模日益增长。为此,学术界和工业界提出了面向集群的分布式训练架构,使用多个节点并行计算,加速模型的训练过程。然而在集群中,传统的调度器缺乏对分布式深度学习任务的支持,集群资源利用率不足,任务响应时间长,训练速度慢。GPU共享,指调度器允许多个任务共享GPU的计算和通信资源,是一种提高GPU利用率、优化集群训练效率的方案。但现有的深度学习任务调度的相关研究工作未考虑GPU共享下任务之间的相互干扰,欠缺GPU共享下任务的合理调度。此外,在允许GPU共享的集群中还因深度学习任务占用工作节点数量不同、训练周期长短不一,存在着负载分配不合理的问题。针对上述两个问题,本文对共享GPU的深度学习任务调度进行优化,提出了两种调度方法。本文结合这两种策略设计了面向分布式训练任务的集群调度器Vapor。本文具体贡献如下:1、本文提出了计算与通信并行的GPU共享调度策略,以流水线的方式并行化多任务的计算与通信。该策略以抢占的方式实现计算资源的隔离,最小化共享任务之间的相互干扰。在此基础上设计了贪心的任务放置策略,能够有效的缩短总任务的完成时间。2、对于GPU共享中的负载均衡问题,本文提出了自适应的批量再分配策略,在GPU共享任务调度的基础之上进一步优化。该策略使用AIMD模型预测每个周期中各工作节点的训练数据的批量大小与计算时间的关系,再通过调整批量平衡节点间的负载,有效减少了 GPU因同步等待而浪费的时间。3、本文基于以上两种策略设计了 Vapor,一种面向分布式训练任务的集群调度器。该调度器构建于Kubernetes平台之上,支持主流的TensorFlow深度学习框架。实验结果表明,相比于传统的批调度器,采用计算与通信并行的GPU共享调度策略的集群训练效率有32%的提升,与Gandiva、Terisas调度器相比,集群训练效率提升15%到20%。实验结果表明,在负载不均的环境中,自适应的批量再分配策略能够基于计算与通信并行的GPU共享调度策略,更进一步地提高GPU资源利用率。相比于无需等待同步的AD-PSGD算法,集群训练效率能够提升15%以上。
面向NLP领域中稀疏模型的分布式训练优化技术研究
这是一篇关于深度学习,分布式训练,数据并行,稀疏模型,模型平均的论文, 主要内容为近年来,深度学习技术发展迅速,在计算机视觉、自然语言处理等领域得到广泛应用。伴随深度神经网络模型的性能提升,模型的参数量、计算量也有了显著的增长,单个计算设备的性能已经不能满足大模型、大数据下的训练需求,分布式训练成为加速深度神经网络模型训练的必要手段。然而,现有的分布式训练优化技术主要针对计算机视觉领域的稠密模型,不能有效应用于稀疏模型的分布式训练。稀疏模型广泛应用于自然语言处理、推荐系统等多个领域,由于在参数存储、梯度表示等多个方面与稠密模型存在区别,导致现有的分布式训练方法不能在稀疏模型上取得有效的加速效果。本文面向自然语言处理领域中的稀疏模型的分布式训练优化技术开展研究,主要工作和创新点如下:针对自然语言处理领域中稀疏模型中稀疏参数量大、通信开销高的问题,提出了一种稀疏感知的混合模型平均优化算法(SA-HMA)。该算法考虑到稀疏模型的稀疏更新特性,将模型的参数划分为稀疏和稠密两个部分,分别采用不同的聚合方式进行模型参数的同步。对于模型参数的稠密部分使用原有的同步算法进行聚合,对于模型参数的稀疏部分使用基于模型平均算法的方式进行聚合。在LM语言模型和NMT机器翻译模型上的实验表明,相比主流分布式训练方法,该算法能分别缩短约76%和58%的收敛时间。考虑到稀疏参数的聚合周期内只有部分参数进行更新的特点,提出了一种基于参数增量的高效模型聚合算法。该算法设计并使用增量数组记录需要同步的模型参数信息。同时,为了避免在参数稀疏程度不高时对增量数组的维护带来的额外开销,设计了一种动态的通信策略选择机制,以在不同的模型下提高训练的吞吐率,缩短训练时间。实验表明,该算法相对于稀疏感知的混合模型平均优化算法,能够进一步提高5%-13%的分布式训练吞吐率,相比主流分布式训练方法,最多能缩短约80%的收敛时间。
去中心化的联邦学习和数据共享平台的设计与实现
这是一篇关于联邦学习,区块链,分布式训练,差分隐私的论文, 主要内容为我国正在建设适用于下一代IPv6的网络空间国际治理体系,该体系涉及多个自治域(国家、地区、组织等)。其中的IPv6网络主动测量任务中,人工智能模型也得到大规模的应用,但是多自治域之间模型训练数据和测量任务隐私数据存在跨境传输的风险。如何在保护数据隐私的情况下,实现多域网络中隐私数据共享和联合建模是该任务的重要需求之一。联邦学习就是一种有效的解决方法,联邦学习可以在不暴露本地训练数据的情况下实现多方联合建模,但联邦学习系统也容易受到模型投毒和模型隐私推断攻击。使用区块链技术将联邦学习去中心化,利用差分隐私技术对模型加密,便可以进一步保护联邦学习系统的安全性和数据隐私性。针对于多域网络主动测量任务中的联合建模和隐私数据共享,本文结合区块链技术,实现了一个去中心化的联邦学习和数据共享平台。其主要研究内容如下:1)本文设计并实现了一个融合区块链居委会选举机制和差分隐私算法的去中心化联邦学习框架。该框架中联邦学习全局模型维护和本地模型更新存储通过区块链智能合约实现,可以防止模型被投毒攻击。由于区块链传统矿工共识机制性能较差,该框架采用区块链居委会选举的共识机制替代矿工共识机制,可以减少区块链共识计算量,提高系统性能。该框架还采用了基于高斯差分隐私算法对联邦学习模型进一步加密,防止模型隐私推断攻击。2)本文设计并实现了一个基于区块链去中心化存储的数据共享框架。该框架利用区块链去中心化存储技术,存储多域网络之间的隐私数据;利用区块链智能合约实现数据加密、数据收发等功能。3)本文结合上述框架实现了整个去中心化的联邦学习和数据共享平台,平台采用多节点分布式架构,单节点采用前后端分离技术构建,节点之间去中心化的通信和数据存储通过区块链技术实现。节点前端采用Vue框架和Element UI组件库构建,后端采用基于Python语言的Django框架构建,本地数据采用Mysql数据库存储。节点之间去中心化数据存储采用Swarm区块链网络实现,基于居委会机制的联邦学习机制和数据共享机制采用Fisco区块链网络实现。本文首先介绍了课题的背景,简要说明联邦学习以及区块链国内外研究现状,总结了本文关键技术。基于背景,本文分析了系统需求,包括功能需求、非功能性需求等。基于需求分析,本文介绍了系统的总体架构,分为展现层、接入层、服务层、存储层四层;介绍了系统管理、联邦学习、数据共享、区块链四模块;使用E-R图描述了数据库的总体设计。其次,本文详细介绍了融合区块链居委会选举机制和差分隐私算法的去中心化联邦学习框架。再次,本文介绍了系统主要模块的详细设计和实现,通过活动图、类图、伪代码介绍了相关模块实现,其中包括去中心化联邦学习、去中心化的数据共享、区块链和后台管理模块等。继次,本文详细介绍了系统的开发部署环境,对系统的功能和性能进行了测试,测试结果表明,利用本系统进行联邦学习,能在保护联邦学习模型隐私的同时获得传统训练方法近似的模型效果。本文最后总结了论文工作,说明了待解决的问题并进行了展望。本文设计的研究内容来自国家级重点项目“下一代IPv6国际网络空间治理体系”(项目号2020YFE0200500)中,网络主动测量任务的去中心化联邦学习与数据共享平台的研发任务。本文研究成果可以解决多域网络主动测量任务中,多方联合建模和数据共享中数据隐私保护问题。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设海岸 ,原文地址:https://bishedaima.com/lunwen/52578.html