基于TensorCore我们可以对 MatMul、 Convolution等计算原语进行加速,而二者恰好是神经网络中计算量较大的op。 从访存而言,若tensor的数值精度由FP32变为FP16,那么我们也可以得到理论上2X的访存加速。因此我们引入了混合精度对神经网络的训练进行加速。 自动混合精度训练需要解决的问题分为两个方面: 一是自动将用户定义好...