大规模图神经网络计算加速关键技术研究
这是一篇关于图神经网络,训练,推理,流水线并行,数据并行,数据缓存的论文, 主要内容为图神经网络能够有效探索图中顶点的复杂依赖关系,已成为处理图结构数据的强大工具,并成功应用于社交网络、知识图谱、推荐系统和化学反应等领域中。随着图数据规模的不断增大,大规模图神经网络的计算成为当前的研究热点和难点,在小批量采样、数据加载和嵌入计算等方面仍面临巨大的性能挑战。由于图的复杂性和不规则性,小批量采样数据访问随机化会导致采样数据局部性差和邻域扩展爆炸问题。同时图中顶点有着复杂的依赖关系,一个顶点很可能连接到多个目标顶点,使得不同的小批量可以多次选择重复的顶点,这种冗余顶点访问模式导致了从CPU到GPU数据加载效率低下的问题。而且,冗余顶点访问模式和图神经网络推理算法导致了GPU中冗余顶点的嵌入计算。因此本文分别在图神经网络训练和推理阶段针对以上小批量采样、数据加载和嵌入计算等方面进行了研究。首先,针对训练阶段小批量采样过程数据局部性差和邻域扩展爆炸的问题,本文提出了局部感知的小批量采样方法,通过在聚类后的顶点上采样,不仅提高了顶点访问的局部性,还限制了邻域扩展的范围,显著减少了采样时间。针对图神经网络训练中数据加载延迟过大以及传统数据缓存方法效率低的问题,本文还提出了模型层数感知的缓存方法,通过缓存指定目标顶点的l阶邻域中的所有顶点,极大地减少了缓存图顶点特征的数量,实现了更好的缓存效率和内存利用率。测试结果表明,本文的方法能在超大规模数据集上完成训练,相比于DGL,本文的方法平均能够减少85.5%的采样时间和90.4%的数据加载时间,综合加速比最高达到5倍。其次,针对大规模图神经网络推理中冗余顶点嵌入计算和数据加载问题,本文提出了一个支持自适应图结构的图神经网络推理方法并使用特征分区缓存方法进行了优化。本文提出了自适应图结构的图神经网络推理方法,该方法可以根据不同推理任务的计算模式选择最优推理算法,以最小化顶点嵌入的计算量。此外,本文提出了一种特征分区的缓存策略,预先划分目标顶点并在GPU缓存相应的特征数据,计算完成一个分区的目标顶点后,将其替换为后续的特征数据分区。这种特征分区缓存策略极大地减少了缓存的图顶点特征,并且每个小批量中的顶点可以与GPU内存中的缓存特征相匹配,实现了高效的数据加载。测试结果表明本文的方法相比于DGL能够最多减少99%的顶点嵌入计算时间和99%的数据加载时间。最后,针对大规模图神经网络分布式计算中通信量大和可扩展性差的问题,本文提出了自依赖的图划分方式,并将训练和推理的方法应用在基于自依赖划分的分布式计算中。本文对图进行划分后,对于每个图分区,扩展子图中目标顶点的邻域,包括采样期间所需邻居顶点的全部信息,以避免跨机器的数据传输和特征收集。之后在分布式的环境中应用本文在训练和推理中提出的方法,进一步加快了图神经网络的计算速度,并且提高了分布式计算的可扩展性。实验结果表明本文的方法能最大比DGL快8.7倍,并且可扩展性提高了21%。
大规模图神经网络计算加速关键技术研究
这是一篇关于图神经网络,训练,推理,流水线并行,数据并行,数据缓存的论文, 主要内容为图神经网络能够有效探索图中顶点的复杂依赖关系,已成为处理图结构数据的强大工具,并成功应用于社交网络、知识图谱、推荐系统和化学反应等领域中。随着图数据规模的不断增大,大规模图神经网络的计算成为当前的研究热点和难点,在小批量采样、数据加载和嵌入计算等方面仍面临巨大的性能挑战。由于图的复杂性和不规则性,小批量采样数据访问随机化会导致采样数据局部性差和邻域扩展爆炸问题。同时图中顶点有着复杂的依赖关系,一个顶点很可能连接到多个目标顶点,使得不同的小批量可以多次选择重复的顶点,这种冗余顶点访问模式导致了从CPU到GPU数据加载效率低下的问题。而且,冗余顶点访问模式和图神经网络推理算法导致了GPU中冗余顶点的嵌入计算。因此本文分别在图神经网络训练和推理阶段针对以上小批量采样、数据加载和嵌入计算等方面进行了研究。首先,针对训练阶段小批量采样过程数据局部性差和邻域扩展爆炸的问题,本文提出了局部感知的小批量采样方法,通过在聚类后的顶点上采样,不仅提高了顶点访问的局部性,还限制了邻域扩展的范围,显著减少了采样时间。针对图神经网络训练中数据加载延迟过大以及传统数据缓存方法效率低的问题,本文还提出了模型层数感知的缓存方法,通过缓存指定目标顶点的l阶邻域中的所有顶点,极大地减少了缓存图顶点特征的数量,实现了更好的缓存效率和内存利用率。测试结果表明,本文的方法能在超大规模数据集上完成训练,相比于DGL,本文的方法平均能够减少85.5%的采样时间和90.4%的数据加载时间,综合加速比最高达到5倍。其次,针对大规模图神经网络推理中冗余顶点嵌入计算和数据加载问题,本文提出了一个支持自适应图结构的图神经网络推理方法并使用特征分区缓存方法进行了优化。本文提出了自适应图结构的图神经网络推理方法,该方法可以根据不同推理任务的计算模式选择最优推理算法,以最小化顶点嵌入的计算量。此外,本文提出了一种特征分区的缓存策略,预先划分目标顶点并在GPU缓存相应的特征数据,计算完成一个分区的目标顶点后,将其替换为后续的特征数据分区。这种特征分区缓存策略极大地减少了缓存的图顶点特征,并且每个小批量中的顶点可以与GPU内存中的缓存特征相匹配,实现了高效的数据加载。测试结果表明本文的方法相比于DGL能够最多减少99%的顶点嵌入计算时间和99%的数据加载时间。最后,针对大规模图神经网络分布式计算中通信量大和可扩展性差的问题,本文提出了自依赖的图划分方式,并将训练和推理的方法应用在基于自依赖划分的分布式计算中。本文对图进行划分后,对于每个图分区,扩展子图中目标顶点的邻域,包括采样期间所需邻居顶点的全部信息,以避免跨机器的数据传输和特征收集。之后在分布式的环境中应用本文在训练和推理中提出的方法,进一步加快了图神经网络的计算速度,并且提高了分布式计算的可扩展性。实验结果表明本文的方法能最大比DGL快8.7倍,并且可扩展性提高了21%。
大规模图神经网络计算加速关键技术研究
这是一篇关于图神经网络,训练,推理,流水线并行,数据并行,数据缓存的论文, 主要内容为图神经网络能够有效探索图中顶点的复杂依赖关系,已成为处理图结构数据的强大工具,并成功应用于社交网络、知识图谱、推荐系统和化学反应等领域中。随着图数据规模的不断增大,大规模图神经网络的计算成为当前的研究热点和难点,在小批量采样、数据加载和嵌入计算等方面仍面临巨大的性能挑战。由于图的复杂性和不规则性,小批量采样数据访问随机化会导致采样数据局部性差和邻域扩展爆炸问题。同时图中顶点有着复杂的依赖关系,一个顶点很可能连接到多个目标顶点,使得不同的小批量可以多次选择重复的顶点,这种冗余顶点访问模式导致了从CPU到GPU数据加载效率低下的问题。而且,冗余顶点访问模式和图神经网络推理算法导致了GPU中冗余顶点的嵌入计算。因此本文分别在图神经网络训练和推理阶段针对以上小批量采样、数据加载和嵌入计算等方面进行了研究。首先,针对训练阶段小批量采样过程数据局部性差和邻域扩展爆炸的问题,本文提出了局部感知的小批量采样方法,通过在聚类后的顶点上采样,不仅提高了顶点访问的局部性,还限制了邻域扩展的范围,显著减少了采样时间。针对图神经网络训练中数据加载延迟过大以及传统数据缓存方法效率低的问题,本文还提出了模型层数感知的缓存方法,通过缓存指定目标顶点的l阶邻域中的所有顶点,极大地减少了缓存图顶点特征的数量,实现了更好的缓存效率和内存利用率。测试结果表明,本文的方法能在超大规模数据集上完成训练,相比于DGL,本文的方法平均能够减少85.5%的采样时间和90.4%的数据加载时间,综合加速比最高达到5倍。其次,针对大规模图神经网络推理中冗余顶点嵌入计算和数据加载问题,本文提出了一个支持自适应图结构的图神经网络推理方法并使用特征分区缓存方法进行了优化。本文提出了自适应图结构的图神经网络推理方法,该方法可以根据不同推理任务的计算模式选择最优推理算法,以最小化顶点嵌入的计算量。此外,本文提出了一种特征分区的缓存策略,预先划分目标顶点并在GPU缓存相应的特征数据,计算完成一个分区的目标顶点后,将其替换为后续的特征数据分区。这种特征分区缓存策略极大地减少了缓存的图顶点特征,并且每个小批量中的顶点可以与GPU内存中的缓存特征相匹配,实现了高效的数据加载。测试结果表明本文的方法相比于DGL能够最多减少99%的顶点嵌入计算时间和99%的数据加载时间。最后,针对大规模图神经网络分布式计算中通信量大和可扩展性差的问题,本文提出了自依赖的图划分方式,并将训练和推理的方法应用在基于自依赖划分的分布式计算中。本文对图进行划分后,对于每个图分区,扩展子图中目标顶点的邻域,包括采样期间所需邻居顶点的全部信息,以避免跨机器的数据传输和特征收集。之后在分布式的环境中应用本文在训练和推理中提出的方法,进一步加快了图神经网络的计算速度,并且提高了分布式计算的可扩展性。实验结果表明本文的方法能最大比DGL快8.7倍,并且可扩展性提高了21%。
面向NLP领域中稀疏模型的分布式训练优化技术研究
这是一篇关于深度学习,分布式训练,数据并行,稀疏模型,模型平均的论文, 主要内容为近年来,深度学习技术发展迅速,在计算机视觉、自然语言处理等领域得到广泛应用。伴随深度神经网络模型的性能提升,模型的参数量、计算量也有了显著的增长,单个计算设备的性能已经不能满足大模型、大数据下的训练需求,分布式训练成为加速深度神经网络模型训练的必要手段。然而,现有的分布式训练优化技术主要针对计算机视觉领域的稠密模型,不能有效应用于稀疏模型的分布式训练。稀疏模型广泛应用于自然语言处理、推荐系统等多个领域,由于在参数存储、梯度表示等多个方面与稠密模型存在区别,导致现有的分布式训练方法不能在稀疏模型上取得有效的加速效果。本文面向自然语言处理领域中的稀疏模型的分布式训练优化技术开展研究,主要工作和创新点如下:针对自然语言处理领域中稀疏模型中稀疏参数量大、通信开销高的问题,提出了一种稀疏感知的混合模型平均优化算法(SA-HMA)。该算法考虑到稀疏模型的稀疏更新特性,将模型的参数划分为稀疏和稠密两个部分,分别采用不同的聚合方式进行模型参数的同步。对于模型参数的稠密部分使用原有的同步算法进行聚合,对于模型参数的稀疏部分使用基于模型平均算法的方式进行聚合。在LM语言模型和NMT机器翻译模型上的实验表明,相比主流分布式训练方法,该算法能分别缩短约76%和58%的收敛时间。考虑到稀疏参数的聚合周期内只有部分参数进行更新的特点,提出了一种基于参数增量的高效模型聚合算法。该算法设计并使用增量数组记录需要同步的模型参数信息。同时,为了避免在参数稀疏程度不高时对增量数组的维护带来的额外开销,设计了一种动态的通信策略选择机制,以在不同的模型下提高训练的吞吐率,缩短训练时间。实验表明,该算法相对于稀疏感知的混合模型平均优化算法,能够进一步提高5%-13%的分布式训练吞吐率,相比主流分布式训练方法,最多能缩短约80%的收敛时间。
大规模图神经网络计算加速关键技术研究
这是一篇关于图神经网络,训练,推理,流水线并行,数据并行,数据缓存的论文, 主要内容为图神经网络能够有效探索图中顶点的复杂依赖关系,已成为处理图结构数据的强大工具,并成功应用于社交网络、知识图谱、推荐系统和化学反应等领域中。随着图数据规模的不断增大,大规模图神经网络的计算成为当前的研究热点和难点,在小批量采样、数据加载和嵌入计算等方面仍面临巨大的性能挑战。由于图的复杂性和不规则性,小批量采样数据访问随机化会导致采样数据局部性差和邻域扩展爆炸问题。同时图中顶点有着复杂的依赖关系,一个顶点很可能连接到多个目标顶点,使得不同的小批量可以多次选择重复的顶点,这种冗余顶点访问模式导致了从CPU到GPU数据加载效率低下的问题。而且,冗余顶点访问模式和图神经网络推理算法导致了GPU中冗余顶点的嵌入计算。因此本文分别在图神经网络训练和推理阶段针对以上小批量采样、数据加载和嵌入计算等方面进行了研究。首先,针对训练阶段小批量采样过程数据局部性差和邻域扩展爆炸的问题,本文提出了局部感知的小批量采样方法,通过在聚类后的顶点上采样,不仅提高了顶点访问的局部性,还限制了邻域扩展的范围,显著减少了采样时间。针对图神经网络训练中数据加载延迟过大以及传统数据缓存方法效率低的问题,本文还提出了模型层数感知的缓存方法,通过缓存指定目标顶点的l阶邻域中的所有顶点,极大地减少了缓存图顶点特征的数量,实现了更好的缓存效率和内存利用率。测试结果表明,本文的方法能在超大规模数据集上完成训练,相比于DGL,本文的方法平均能够减少85.5%的采样时间和90.4%的数据加载时间,综合加速比最高达到5倍。其次,针对大规模图神经网络推理中冗余顶点嵌入计算和数据加载问题,本文提出了一个支持自适应图结构的图神经网络推理方法并使用特征分区缓存方法进行了优化。本文提出了自适应图结构的图神经网络推理方法,该方法可以根据不同推理任务的计算模式选择最优推理算法,以最小化顶点嵌入的计算量。此外,本文提出了一种特征分区的缓存策略,预先划分目标顶点并在GPU缓存相应的特征数据,计算完成一个分区的目标顶点后,将其替换为后续的特征数据分区。这种特征分区缓存策略极大地减少了缓存的图顶点特征,并且每个小批量中的顶点可以与GPU内存中的缓存特征相匹配,实现了高效的数据加载。测试结果表明本文的方法相比于DGL能够最多减少99%的顶点嵌入计算时间和99%的数据加载时间。最后,针对大规模图神经网络分布式计算中通信量大和可扩展性差的问题,本文提出了自依赖的图划分方式,并将训练和推理的方法应用在基于自依赖划分的分布式计算中。本文对图进行划分后,对于每个图分区,扩展子图中目标顶点的邻域,包括采样期间所需邻居顶点的全部信息,以避免跨机器的数据传输和特征收集。之后在分布式的环境中应用本文在训练和推理中提出的方法,进一步加快了图神经网络的计算速度,并且提高了分布式计算的可扩展性。实验结果表明本文的方法能最大比DGL快8.7倍,并且可扩展性提高了21%。
大规模图神经网络计算加速关键技术研究
这是一篇关于图神经网络,训练,推理,流水线并行,数据并行,数据缓存的论文, 主要内容为图神经网络能够有效探索图中顶点的复杂依赖关系,已成为处理图结构数据的强大工具,并成功应用于社交网络、知识图谱、推荐系统和化学反应等领域中。随着图数据规模的不断增大,大规模图神经网络的计算成为当前的研究热点和难点,在小批量采样、数据加载和嵌入计算等方面仍面临巨大的性能挑战。由于图的复杂性和不规则性,小批量采样数据访问随机化会导致采样数据局部性差和邻域扩展爆炸问题。同时图中顶点有着复杂的依赖关系,一个顶点很可能连接到多个目标顶点,使得不同的小批量可以多次选择重复的顶点,这种冗余顶点访问模式导致了从CPU到GPU数据加载效率低下的问题。而且,冗余顶点访问模式和图神经网络推理算法导致了GPU中冗余顶点的嵌入计算。因此本文分别在图神经网络训练和推理阶段针对以上小批量采样、数据加载和嵌入计算等方面进行了研究。首先,针对训练阶段小批量采样过程数据局部性差和邻域扩展爆炸的问题,本文提出了局部感知的小批量采样方法,通过在聚类后的顶点上采样,不仅提高了顶点访问的局部性,还限制了邻域扩展的范围,显著减少了采样时间。针对图神经网络训练中数据加载延迟过大以及传统数据缓存方法效率低的问题,本文还提出了模型层数感知的缓存方法,通过缓存指定目标顶点的l阶邻域中的所有顶点,极大地减少了缓存图顶点特征的数量,实现了更好的缓存效率和内存利用率。测试结果表明,本文的方法能在超大规模数据集上完成训练,相比于DGL,本文的方法平均能够减少85.5%的采样时间和90.4%的数据加载时间,综合加速比最高达到5倍。其次,针对大规模图神经网络推理中冗余顶点嵌入计算和数据加载问题,本文提出了一个支持自适应图结构的图神经网络推理方法并使用特征分区缓存方法进行了优化。本文提出了自适应图结构的图神经网络推理方法,该方法可以根据不同推理任务的计算模式选择最优推理算法,以最小化顶点嵌入的计算量。此外,本文提出了一种特征分区的缓存策略,预先划分目标顶点并在GPU缓存相应的特征数据,计算完成一个分区的目标顶点后,将其替换为后续的特征数据分区。这种特征分区缓存策略极大地减少了缓存的图顶点特征,并且每个小批量中的顶点可以与GPU内存中的缓存特征相匹配,实现了高效的数据加载。测试结果表明本文的方法相比于DGL能够最多减少99%的顶点嵌入计算时间和99%的数据加载时间。最后,针对大规模图神经网络分布式计算中通信量大和可扩展性差的问题,本文提出了自依赖的图划分方式,并将训练和推理的方法应用在基于自依赖划分的分布式计算中。本文对图进行划分后,对于每个图分区,扩展子图中目标顶点的邻域,包括采样期间所需邻居顶点的全部信息,以避免跨机器的数据传输和特征收集。之后在分布式的环境中应用本文在训练和推理中提出的方法,进一步加快了图神经网络的计算速度,并且提高了分布式计算的可扩展性。实验结果表明本文的方法能最大比DGL快8.7倍,并且可扩展性提高了21%。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码货栈 ,原文地址:https://bishedaima.com/lunwen/54483.html