在神经网络中,矩阵乘法通常不会单独执行,而在其之前和之后会有其他操作,例如激活函数或逐元素元算(elementwise operations)。一般而言,通过将这些运算的代码与矩阵乘法进行“融合(fusing)“,可以显著提高性能,改善内存局部性(memory locality)并减少调度的额外开销。为了解决这一问题,通常采用两种路径:提供有限数量的预融...