这篇文章主要学习如何在 GPU 上使用 CUDA 实现高性能的 Implicit GEMM 卷积算子。这里会主要参考 cutlass 关于 GEMM 的优化方法。这里先贴一下目前的优化进度(未使用 Tensor Core 和 mma 指令),文章会逐步更新。 实验环境: CPU:Intel(R) Xeon(R) Gold 6226R CPU @ 2.90GHz GPU:NVIDIA GeForce RTX 3090(24...
3. ImplicitGEMM实现卷积反向计算 3.1 ImplicitGEMM实现输入梯度计算 考虑步长(Stride) 3.2 ImplicitGEMM实现权重梯度计算 考虑步长(Stride) 完整代码: 参考: 上一篇文章详细介绍了ImplicitGEMM实现与优化方法。 卷积算子优化-3.1 CUDA实现-ImplicitGEMM卷积61 赞同 · 56 评论文章 这篇文章主要学习如何实现高性能的Im...