基于此,本申请实施例提供了一种粗粒度可重构处理器卷积算子带宽优化设计方法,从动态随机存储器中将目标原数据搬入至共享内存中,在进行卷积计算时,计算单元可以从共享内存中获取搬入的目标原数据进行矩阵转化处理,得到目标原数据的矩阵数据,进而对目标原数据的矩阵数据进行矩阵乘操作,即得到目标原数据的卷积计算结果,其中...
一种面向张量计算单元卷积算子优化实现方法,通过深度学习编译器的DSL表示卷积算子,经对卷积计算进行坐标变换得到隐式通用矩阵乘法的计算表示;然后对卷积算子进行调度优化得到调度模板后,经搜索得到最优搜索参数并通过深度学习编译器的后端生成CUDA C代码,再将生成的CUDA C代码集成入神经网络,实现卷积神经网络在NVIDIA GPU...