这种计算方式使得 stencil 计算难以直接转化为矩阵乘法,因此无法充分利用因深度学习而不断涌现的矩阵乘法加速硬件。 针对此问题,本文提出了一种新的 stencil 计算系统 ConvStencil,可以高效地将 stencil 计算转换为在张量核心单元(TCU)上的矩阵乘法,让传统高性能计算能够利用深度学习硬件进行加速。ConvStencil 的设计基于一...