5个研究背景和意义示例,教你写计算机硬件加速器论文

今天分享的是关于硬件加速器的5篇计算机毕业论文范文, 如果你的论文涉及到硬件加速器等主题,本文能够帮助到你 重组驱动的图卷积网络软硬协同设计研究 这是一篇关于图卷积网络

今天分享的是关于硬件加速器的5篇计算机毕业论文范文, 如果你的论文涉及到硬件加速器等主题,本文能够帮助到你

重组驱动的图卷积网络软硬协同设计研究

这是一篇关于图卷积网络,数据重组,软硬协同设计,硬件加速器,数据局部性的论文, 主要内容为近年来,图卷积网络受到了广泛的关注,并在社区检测、推荐系统等应用中表现出良好的效果和可解释性。然而,在目前的研究阶段,实现高效低延迟的图卷积网络推理计算仍是一个巨大的挑战。图结构数据本身的复杂性,使得图卷积网络在推理计算过程中呈现出了稀疏、不规则等特点。为此,学术界和工业界相继提出了一些专用的图卷积网络加速器,分别在计算和内存访问上进行了定制化的优化,并提供了比通用处理器更好的性能。然而,在处理大规模稀疏图时,片上缓存和片外内存之间频繁的数据移动仍是影响加速器性能的主导因素。针对上述问题,提出了基于数据重组的图卷积网络架构设计的新思路,在将数据传输到硬件加速器上执行前,通过对紧密相关的数据进行重组来提高片上数据的重用。与之前依赖矩阵平铺的设计不同,数据重组允许将矩阵中分布在不连续的行和列的元素打包在一起,提供了更广泛的数据排列选择,并将矩阵平铺作为其中一个特例。该设计思路通过以下的软硬协同设计进行实现:在软件方面,通过行-列打包机制以及一系列局部性感知的启发式算法对可能的数据重组方案进行快速探索,并进一步提供了相应的编程模型和接口,实现了多样化的数据重组策略的选择;在硬件方面,通过重组驱动的图卷积网络加速器(Shuffling-driven graph convolutional networks accelerator,Shugra)来对重组后的数据进行高效地计算。Shugra对图卷积网络中潜在的计算并行性进行了充分的探索,并实现了基于工作量的在线负载均衡机制。此外,Shugra还提出了高效的地址转换机制,用以解决数据重组导致的不规则数据和片上缓存的映射问题。实验结果表明,相比于目前最快的图卷积网络加速器GCNAX,Shugra减少了平均58.8%的片外内存访问,并实现了1.02到1.76倍的能耗节省,以及1.07到1.85倍的性能提升。

重组驱动的图卷积网络软硬协同设计研究

这是一篇关于图卷积网络,数据重组,软硬协同设计,硬件加速器,数据局部性的论文, 主要内容为近年来,图卷积网络受到了广泛的关注,并在社区检测、推荐系统等应用中表现出良好的效果和可解释性。然而,在目前的研究阶段,实现高效低延迟的图卷积网络推理计算仍是一个巨大的挑战。图结构数据本身的复杂性,使得图卷积网络在推理计算过程中呈现出了稀疏、不规则等特点。为此,学术界和工业界相继提出了一些专用的图卷积网络加速器,分别在计算和内存访问上进行了定制化的优化,并提供了比通用处理器更好的性能。然而,在处理大规模稀疏图时,片上缓存和片外内存之间频繁的数据移动仍是影响加速器性能的主导因素。针对上述问题,提出了基于数据重组的图卷积网络架构设计的新思路,在将数据传输到硬件加速器上执行前,通过对紧密相关的数据进行重组来提高片上数据的重用。与之前依赖矩阵平铺的设计不同,数据重组允许将矩阵中分布在不连续的行和列的元素打包在一起,提供了更广泛的数据排列选择,并将矩阵平铺作为其中一个特例。该设计思路通过以下的软硬协同设计进行实现:在软件方面,通过行-列打包机制以及一系列局部性感知的启发式算法对可能的数据重组方案进行快速探索,并进一步提供了相应的编程模型和接口,实现了多样化的数据重组策略的选择;在硬件方面,通过重组驱动的图卷积网络加速器(Shuffling-driven graph convolutional networks accelerator,Shugra)来对重组后的数据进行高效地计算。Shugra对图卷积网络中潜在的计算并行性进行了充分的探索,并实现了基于工作量的在线负载均衡机制。此外,Shugra还提出了高效的地址转换机制,用以解决数据重组导致的不规则数据和片上缓存的映射问题。实验结果表明,相比于目前最快的图卷积网络加速器GCNAX,Shugra减少了平均58.8%的片外内存访问,并实现了1.02到1.76倍的能耗节省,以及1.07到1.85倍的性能提升。

基于FPGA的循环神经网络前向传播加速技术研究

这是一篇关于循环神经网络,回声状态网络,硬件加速器,FPGA,高层次综合的论文, 主要内容为循环神经网络是一类专门针对序列数据处理任务而设计的神经网络,广泛应用于语音识别,机器翻译和动态系统建模等领域,在时间序列相关的任务上拥有超越其他神经网络模型的性能表现。随着任务复杂度的增长与人们对模型预测效果需求的提高,循环神经网络的模型参数量也越来越大,这对硬件实现平台造成了巨大的存储和计算压力,也带来了高延迟等问题,阻碍了循环神经网络在更广阔场景的应用,例如嵌入式场景和Io T场景等。现有的工作分别从模型压缩算法和硬件加速技术着手,提出了一些经典的解决方案如剪枝算法和硬件加速器,但是这些方案存在压缩成本过高,加速器专用性过强等缺陷,无法应用在对精度和速度有动态调节需求的场景中,而这类场景又是普遍存在的。因此,开发具备精度速度动态调节能力的循环神经网络加速技术存在很大的实用价值。针对上述问题,本文研究了循环神经网络前向传播过程的加速技术,基于FPGA设计并实现了具备精度和速度调节能力的循环神经网络加速系统。该系统借助基于投影的压缩算法的低成本优势,并将其和网络的前向传播过程有机结合,实现了在系统运行过程中生成并切换到指定网络尺寸的功能,最终达成了调节系统精度速度的目的。首先,本文进行了系统架构分析与设计,将系统的各功能组件映射到具体的软硬件实现,合理的功能划分使得系统能够高效的运转。其次,在软件算法设计上,本文考虑了系统在实际运行过程中可能存在的突发情况,提出了基于预置投影矩阵的方法和基于状态采样的方法,这两种模型生成方法分别对应着普通应用场景和异常状态场景。充分的应用场景考虑使得系统拥有了环境的鲁棒性。然后,在硬件实现方面,本文设计了加速循环神经网络前向传播过程的硬件加速器,该加速器能够运行两种不同结构的网络模型并且能调节网络的尺寸,动态可调功能的硬件基础是基于分块矩阵向量乘法的计算模块。最后,本文对系统消耗的资源进行优化,主要是使用分段三次函数近似方法优化了激活函数模块的资源消耗。系统运行效果的实验表明本文设计实现的循环神经网络加速系统具备精度和速度的动态调节能力,加速器性能测试实验表明本文的加速器资源消耗较为合理。

基于FPGA的可重构CNN加速器设计

这是一篇关于FPGA,CNN,可重构,硬件加速器,脉动阵列的论文, 主要内容为随着人工智能领域研究的不断发展,卷积神经网络在人工智能计算机图像算法处理、文本信息提取、声纹辨认等领域的表现越发突出。因此,众多学者投入到卷积神经网络的研究中,衍生出许多更复杂、层数更深的网络结构,随之而来的是庞大的计算量。冯诺依曼结构的处理器在处理特定功能的加速系统时,由于其复杂的控制操作,效率往往不如专用硬件加速器。然而,面对当今复杂的卷积神经网络结构,专用硬件加速器的开发成本和周期已经无法接受。因此,FPGA的特性使得其成为开发具有高可重构性、并行度可调、高性能、低功耗的加速器的最优选择。本文的可重构CNN加速器设计研究成果为卷积神经网络的在轻量化、高精度的实际应用场景中提供了可行的加速解决方案,具有一定的实际应用价值。本文研究设计一种可重构的模块化CNN加速器系统架构并在FPGA平台上实现应用。该架构可以灵活适应不同的神经网络结构,并通过硬件优化和并行计算实现高效的计算性能。自上而下设计系统总架构,合理高效安排数据流,提高数据传输效率,减少因为数据访存带来的延时影响;按各层级模块的功能和连接方式分配硬件资源,对于计算量最大的卷积层模块分配大量的DSP资源以满足卷积运算的高并行度;设计各层模块与子模块,上层模块设置例化子模块个数用以调节多个维度的并行度。用C语言实现各模块后将其用硬件描述语言移植到FPGA平台中。采用了Verilog语言进行硬件描述和模块设计,并通过Vivado进行仿真和综合实现。通过实验结果分析,对加速器的性能进行了实验评估和比较分析,本文设计的可重构CNN加速器的性能为102.4 GFLOPS,加速比是CPU的7.25倍,能效比是GPU的9倍,在于其他研究的FPGA加速器对比中,在性能、功耗和能效比等指标上都优于其他方案,证明了本文提出的加速器的高效性和可行性。

卷积神经网络压缩算法研究及FPGA设计验证

这是一篇关于卷积神经网络,网络剪枝,网络量化,FPGA,硬件加速器的论文, 主要内容为近年来,随着深度学习的研究不断发展,以卷积神经网络(CNN)为代表的网络模型已经在自然语言、自动驾驶和计算机视觉等领域内取得了巨大的成功,但这些成功依赖于巨大的参数量和运算量,造成了诸多实际应用很难在特定场景落地。这就带来两点挑战,第一,在不显著降低模型精度的情况下,能够大幅度减少模型的运算量和参数量;第二,在资源受限的硬件平台上,对模型进行加速并提升其性能。在过去的一段时间里,人们探索过众多关于模型压缩和加速相关的问题,然而大部分是对压缩或者加速单方面的研究。针对以上问题,本文着眼于卷积神经网络模型压缩和硬件加速问题展开了研究,主要工作内容如下:1.首先本文研究并实现一种通道独立阈值剪枝算法,将网络BN层的缩放系数作为特征图通道重要性的评估指标,测试每个网络层对剪枝的敏感度,根据敏感度曲线,每个网络层设置独立的剪枝阈值,并裁剪掉对应的卷积核及其连接。本算法在VGG-16和Mobile Net网络上进行了相关的实验,在模型准确率分别下降了0.24%和0.6%的情况下,对VGG网络参数量降低了95.52%,FLOPs降低了59.55%,Mobile Net网络的参数量降低了83.83%,FLOPs降低了86.33%。2.针对将模型实际部署到硬件上的量化方案,普遍使用的是后训练量化(Post Training Quantization,PTQ)算法,虽然操作比较友好便捷,然而却有着不小的精度损失。本文设计了一种基于QIO(Integer-Arithmetic-Only)的量化方法,在训练时插入伪随机量化节点,推理时使用整型计算,能够在软件训练过程中就能模拟实际部署的误差,实验结果表明准确率误差不超过1%。3.最后基于FPGA对上述压缩后的CNN加速器进行设计和验证,通过设计特定的阵列来处理大量的卷积运算,利用循环交换增加数据复用从而优化数据运算,在数据缓存过程中,使用读写并行的方式进行加速,同时采用有限状态机和流水线的方法来控制在FPGA上的执行流程。然后使用Intel的FPGA器件结合相应的EDA工具实现加速器的代码设计与综合,搭建测试平台对加速器进行仿真验证。实验结果表明,本文的FPGA加速器的识别精度与软件上量化后模型的识别精度误差为0.61%,其性能大约为77.15GOPS,能效比为7.17GOPS/W,与传统硬件加速器和其他文献中设计的FPGA加速器相比,本文针对压缩后的卷积神经网络而设计的FPGA加速器取得了较好的加速效果。

本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码客栈 ,原文地址:https://bishedaima.com/lunwen/54625.html

相关推荐

发表回复

登录后才能评论