fp16矩阵乘法

2025-03-11 11:27:18

拼音 [ 拼音 ]

Triton L2缓存命中优化矩阵乘法(fp16&int8)详解及性能测试 - 知乎

具体实现的话和fp16 matmul的实现区别不大,唯一需要注意的地方就是累加器需要用int32格式的,不然int8相乘累加之后非常容易溢出被截断,进而损失精度。 @triton.jit def int8_matmul_forward_opt(a_ptr, b_ptr, c_ptr,scale_a_ptr, scale_b_ptr,M, N, K,stride_am, stride_ak,stride_bk, stride_bn, s...
太平洋的水的想法: CUDA 12.8更新:优化FP8/FP4矩阵乘法性能 |...

CUDA 12.8更新:优化FP8/FP4矩阵乘法性能 | CUDA 12.8 的 cuBLAS 库更新为开发者带来了显著的性能提升和问题修复,尤其在 Blackwell GPU 架构上表现突出。新功能性能改进矩阵乘法(Matmuls):优化 FP8(块缩放和张量宽度缩放)、FP4、FP16/BF16 的性能。 BLAS Level 3 操作:改进 SSYRK、CSYRK 和 CHERK 操作,...