首先,我们先来了解一下CNN中的卷积运算的规则,CNN中的卷积运算如图1所示,代码1表示其伪代码。 图1 代码1 几乎所有的基于FPGA的加速方案,都如图2显示的那样,FPGA上的CNN加速器设计主要由处理元件(PE),片上缓冲器,外部存储器和片上/片外互连几个组件组成。其中PE是卷积的基本计算单元。用于处理的所有数据都存储在...
因此,在国内FPGA上构建高性能CNN并替换现有成熟的异构方案是一项具有挑战性的任务。 Zhang[1]于2015年首次对卷积网络推理中的数据共享和并行性进行了深入分析和探索。Guo[2]提出的加速器在214MHz下达到了84.3 GOP/s的峰值性能。2016年,Qiu[3]更深入地探索了使用行缓冲器的加速器。 本文提出了一种更高效、更通用...
近日KORTIQ公司推出了一款Xilinx FPGA的CNN加速器IP——AIScale,它能够利用实现训练好的CNN网络,比如行业标准的ResNet、AlexNet、Tiny Yolo和VGG-16等,并将它们进行压缩输出二进制描述文件,可以部署到Xilinx全系列可编程逻辑器件上。Zynq SoC和Zynq UltraScale+ MPSoC器件PS可以提供数据给AIScale CNN加速器(PL),经过分...
首先,我们先来了解一下CNN中的卷积运算的规则,CNN中的卷积运算如图1所示,代码1表示其伪代码。 图1 代码1 几乎所有的基于FPGA的加速方案,都如图2显示的那样,FPGA上的CNN加速器设计主要由处理元件(PE),片上缓冲器,外部存储器和片上/片外互连几个组件组成。其中PE是卷积的基本计算单元。用于处理的所有数据都存储在...
在所调研的论文《Evaluating Fast Algorithm for Convolutional Neural Networks on FPGAs》中显示了FPGA加速器加速CNN的资源利用情况,如表一所示。在这些设计中,可以得出结论,DSP是消耗最多的资源,因为典型CNN的操作主要由MAC单元组成,乘法器通常由DSP在FPGA上实现。 表1 先前FPGA加速CNN的资源使用情况 除了空间卷积...
加速器架构 FINN将加速器分为两种架构,并且支持这两种架构。数据流架构:为特定的神经网络拓扑定制,每...
VI.提出CNN加速器 为实现V-E中优化卷积加速的方案,提出一个具有高度灵活性的数据路由器,适用滑动设置...
一种基于FPGA的CNN硬件加速器实现 0 引言 随着深度学习技术的飞速发展,神经网络模型在图像识别、目标检测和图像分割等领域取得了巨大技术进步[1-2]。然而相比较传统算法,神经网络在获得高的性能同时也带来了高计算复杂度的问题,使得基于专用硬件设备加速神经网络成为神经网络模型应用领域关注的焦点。目前,神经网络模型...
几乎所有的基于FPGA的加速方案,都如图2显示的那样,FPGA上的CNN加速器设计主要由处理元件(PE),片上缓冲器,外部存储器和片上/片外互连几个组件组成。其中PE是卷积的基本计算单元。用于处理的所有数据都存储在外部存储器中。由于片上资源限制,数据首先被缓存在片上缓冲区中,然后再馈送给PE。双缓冲区用于通过数据传输...
1.2 CNN网络参数 根据所选的网络结构,本文使用TensorFlow框架搭建模型,学习率设置为0.000 1,使用自适应学习率优化算法Adam加速模型收敛,训练选择ReLU激活函数增加模型参数的稀疏性,使用交叉熵作为损失函数,加入L2正则化项减小过拟合。训练了50轮后,模型在ORL人脸数据库的正确率达到95%,满足实际应用需要。