ndarray-cuda-matmul库正在开发中,现在已经实现了矩阵乘法dot, 矩阵转置T,矩阵求逆inv算法,接下会继续完善增加SVD分解,矩阵特征向量特征值求解等算法。ndarray-cuda-matmul库地址 https://github.com/Lyn-liyuan/ndarray-cuda-matmulgithub.com/Lyn-liyuan/ndarray-cuda-matmul 想了解ndarray-cuda-matmul库的同学可...
GEMM 优化: 双缓冲 (Prefetch) 和 Bank Conflict 解决前言本文主要是对 深入浅出GPU优化系列:GEMM优化(一) - 知乎, 深入浅出GPU优化系列:GEMM优化(二) - 知乎 以及 深入浅出GPU优化系列:GEMM优化(三) - … 矩阵乘法内核优化CUDA杂谈 自动总结: