10个研究背景和意义示例,教你写计算机加速器论文

今天分享的是关于加速器的10篇计算机毕业论文范文, 如果你的论文涉及到加速器等主题,本文能够帮助到你

基于CNN的航空目标检测算法优化与嵌入式实现

这是一篇关于目标检测,轻量化,嵌入式实现,加速器的论文, 主要内容为得益于卷积神经网络研究逐渐成熟,基于卷积神经网络的目标检测算法不断进步,航空目标检测算法作为目标检测算法的分支,因应用广泛而受到研究人员重视。但随着目标检测算法检测精度的提高,算法庞大的参数量和计算量使其在嵌入式设备上难以实现,应用于航空目标检测的无人机设备因自身能源限制,又对搭载其上的设备具有便携性和低功耗的要求。因此本文从算法可移植性和嵌入式设备加速实现两个方面出发,对基于卷积神经网络的目标检测算法进行轻量化且适合嵌入式设备实现的改进和优化,针对卷积神经网络在嵌入式设备上的加速实现,设计基于ZYNQ的卷积神经网络加速器,通过并行度和流水线优化实现目标检测算法在嵌入式设备上加速计算,主要完成工作如下:(1)首先针对目标检测算法网络模型参数多、计算量大的问题,选择以轻量型的YOLOv4-Tiny算法为基础,进一步对算法网络模型的参数量和计算量进行轻量化改进;其次针对网络模型参数量和计算量降低后导致检测精度下降的问题,参考PAN结构对网络模型结构中的特征增强部分进行改进,生成新的网络模型;最后,为使算法参数适合嵌入式设备计算,对改进后的网络模型进行量化训练,得到量化后的网络模型并进行实验。实验结果表明在检测精度损失有限的情况下,网络模型尺寸压缩89%,检测速度提高64%。(2)针对目标检测算法在嵌入式设备上的加速实现,本文设计基于ZYNQ的卷积神经网络加速器,根据ZYNQ平台设计卷积神经网络加速器架构,利用软硬件协同设计方式,使用Vivado系列工具分别对加速器软件和硬件所设计的各功能模块进行实现。最后,对加速器计算过程从并行度和流水线两个方面进行优化。(3)对加速器硬件功能模块进行仿真验证,使用上述卷积神经网络加速器设计方案实现本文改进后的目标检测算法,在ZCU104开发板上集成系统并实现算法推理过程。从检测效果、开发板的资源使用情况以及系统功耗多个方面对结果进行分析。结果表明,本文提出的算法优化方式在嵌入式设备实现所需功耗3.8W,能效比39.7GOPS/W,通过对比表明该方法具有一定优势。

基于嵌入式的三维目标检测算法研究

这是一篇关于卷积神经网络,FPGA,加速器的论文, 主要内容为随着嵌入式系统的普及和应用领域的不断扩大,嵌入式目标检测技术也得到了广泛的研究和应用。在过去,嵌入式目标检测技术主要依赖于传统的机器视觉方法,其检测效果和性能受到限制。近年来,由于深度学习的飞速发展,许多新型的目标检测算法已被普遍采纳,从而极大地改善了嵌入式目标检测的准确度与可靠性。其中,卷积神经网络(Convolutional Neural Network,CNN)作为深度学习算法的典范,已被证明具有极高的准确度,并且已被证明可以完成许多复杂的计算机视觉任务。然而,传统的卷积神经网络通常包含密集的计算量和庞大的数据量,因此不适合在计算资源有限、功耗低的嵌入式计算场景中应用。FPGA(Field Programmable Gate Array,FPGA)具有高度的可编程性和并行计算能力,使得基于FPGA的嵌入式目标检测技术在速度和性能上具有一定的优势。因此本文对基于FPGA的卷积神经网络目标检测算法进行研究,主要内容包含对三维点云神经网络改进和训练,通过Verilog语言设计硬件电路实现神经网络。借助Point Net三维目标检测技术,通过采用可分离的深度卷积方法来改善该网络模型,从而显著减少其所需的计算量。同时考虑到FPGA在处理浮点数上的劣势,将模型参数进行浮点数转定点数的量化处理,对网络模型进一步改进。采用Tensor Flow深度学习框架,使用Model Net40数据库中的三维点云样本对改进后的网络模型进行训练,在训练中增加的非线性激活函数加速收敛,最终达到在检测精度基本不变的前提下,获得了准确率较高的权重和偏置。结合FPGA内部资源,通过Verilog语言对模型内部的运算控制、数据传输、存储进行设计,实现网络的前向传播硬件结构,并在Xilinx ZYNQ平台上测试和评估。经过实验测试,ZYNQ-7020平台的平均运算计算性能达到了14.64 GOP/s,并且硬件总体功耗为3.34W,其能效比相较CPU(Central Processing Unit)和GPU(Graphics Processing Unit)的性能高出了20.8倍和10.1倍左右。满足了嵌入式平台对目标检测神经网络低功耗、高能效的设计要求。

基于嵌入式的三维目标检测算法研究

基于卷积神经网络的目标检测加速方案研究

这是一篇关于卷积神经网络,加速器,目标检测,编译器的论文, 主要内容为在卷积神经网络中,深度学习技术凭借其强大的特征提取能力、较强的分类能力,近年来在自然语言处理、语音识别、计算机视觉等领域都有广泛应用。但这种优异性能依赖于大量的参数量和计算量,随着卷积神经网络应用领域的不断扩大,与之对应的是需要有更好的硬件平台,其中就包括更高的计算能力和更好的数据带宽。目前行业内的佼佼者都在致力于挖掘各种基于芯片的解决方案。而CPU和GPU更高的功耗以及需要根据场景进行布置,此方法已经很难满足日常需求。因此通过专用硬件对卷积神经网络进行加速逐渐成为深度神经网络的重要发展趋势。为了卷积神经网络经济效率最大化目标,就必须实现硬件加速器通用化。有鉴于此,本课题基于神经网络加速器,对目前主流神经网络目标检测模型进行加速,在保证通用性的前提下,完成了加速的目标。本文的研究工作主要如下:通过对神经网络加速器体系架构以及内部各运算单元计算特性进行研究,完成加速器各功能寄存器的配置,在控制通路设计了一种FIFO状态信号配合多级流水的控制结构,解决访存模块相邻单元数据吞吐率不一致、跨时钟域传输、控制路径时序错误问题。对加速器各模块核心算法进行研究,设计加速器卷积模块与池化模块联合运行的工作模式,减少加速器对系统内存的频繁访问,提高数据带宽。通过对加速器内部数据通信方式的研究,完善内部总线协议并设计协议转换模块,为加速器与片上系统的集成提供条件,实现对加速器硬件系统的封装。通过对神经网络加速器软件开发环境的研究,分析编译器对神经网络的调用方式,提出模型量化方法,完成对目前主流神经网络模型的量化,设计数据格式转换程序,将量化后的模型转换为编译器所支持的数据结构,成功对网络模型进行压缩并完成编译。通过对运行时程序的研究,设计用户驱动程序,搭建虚拟测试平台,联合系统内核驱动,在虚拟测试平台实现卷积神经网络的正常运行。基于FPGA搭建神经网络加速器硬件平台,将加速器内部RAM代码转化为行为级描述,完成对加速器板上LUT资源的优化,使用APB与AXI总线协议对加速器进行FPGA映射。通过Petalinux植入嵌入式操作系统,优化加速器系统设备树,完成加速器硬件系统与软件环境的搭建。本文基于ZCU102开发板,完成神经网络加速器硬件优化以及软件设计,以手写数字识别网络对搭建的加速器硬件系统进行测试,系统工作频率为100 MHz,平均一张手写数字识别时间为2 ms。最后对目标检测网络进行实现,在仅消耗25%的板卡资源下,完成对目标进行识别,其速度可达16帧。

面向移动端的高能效卷积神经网络加速器的设计与实现

这是一篇关于目标检测,卷积神经网络,FPGA,加速器,软硬件协同设计的论文, 主要内容为人工智能的迅速发展使得现代卷积神经网络在图像分类、图像分割、目标检测等领域取得了巨大成功。随着性能要求越来越高,复杂神经网络模型不断向更深层的网络结构发展,随之带来的是计算量和存储量的显著增加。在某些真实的应用场景如移动或者嵌入式设备上,如此大而复杂的模型难以应用。首先,模型过于庞大,在移动设备上部署时面临着内存不足的问题;其次,一些实时场景要求运行延迟低、响应速度快、分类精度高。因此,研究高能效轻量级的CNN模型并利用硬件对模型进行加速至关重要。本文针对复杂神经网络模型在移动设备上部署时遇到的内存不足的问题,提出了两种神经网络压缩算法对原始Mobile Net-SSD模型进行简化。首先分析了整个网络的性能提升瓶颈,发现点卷积层的参数量和执行时间在网络模型中占比最大。设计的剪枝算法是专门针对点卷积层参数冗余问题而提出的卷积核剪枝,将每层点卷积内的卷积核根据重要性排序,移除在特征提取过程中并不重要的卷积核,剪枝后通过再训练恢复剪枝过程损失的精度。其次,本文提出了INT16量化策略,将训练后的浮点数参数统一转换为定点数参与模型离线预测,一方面能够进一步压缩网络模型,另一方面能减少浮点计算单元的参与,有效提升预测速度。本文针对目标检测算法在面积、功耗受限的移动设备上部署时无法保持高性能和高精度的问题,面向可编程阵列芯片(FPGA)平台提出了一种基于软硬件协同设计方法的Mobile Net-SSD目标检测硬件加速器设计。设计了一种可配置的卷积计算加速阵列,通过循环分块实现不同规模网络层的多粒度并行。在此基础上,进一步设计了一种针对输入缓存的行缓存优化机制,结合直接存取存储器(DMA)和数据流接口传输数据解决传输延迟的瓶颈。实验表明,所提出的目标检测系统的性能功耗比相较于CPU和GPU分别提升了89倍和7倍,相比于以往工作中提出的目标检测系统具有更高的准确度和更优的性能。