具体实现的话和fp16 matmul的实现区别不大,唯一需要注意的地方就是累加器需要用int32格式的,不然int8相乘累加之后非常容易溢出被截断,进而损失精度。 @triton.jit def int8_matmul_forward_opt(a_ptr, b_ptr, c_ptr,scale_a_ptr, scale_b_ptr,M, N, K,stride_am, stride_ak,stride_bk, stride_bn, s...
CUDA 12.8更新:优化FP8/FP4矩阵乘法性能 | CUDA 12.8 的 cuBLAS 库更新为开发者带来了显著的性能提升和问题修复,尤其在 Blackwell GPU 架构上表现突出。 新功能 性能改进 矩阵乘法(Matmuls):优化 FP8(块缩放和张量宽度缩放)、FP4、FP16/BF16 的性能。 BLAS Level 3 操作:改进 SSYRK、CSYRK 和 CHERK 操作,...