这篇文章主要学习如何在 GPU 上使用 CUDA 实现高性能的 Implicit GEMM 卷积算子。这里会主要参考 cutlass 关于 GEMM 的优化方法。这里先贴一下目前的优化进度(未使用 Tensor Core 和 mma 指令),文章会逐步更新。 实验环境: CPU:Intel(R) Xeon(R) Gold 6226R CPU @ 2.90GHz GPU:NVIDIA GeForce RTX 3090(24...
Qwesh157:卷积算子优化-1.卷积计算的特点11 赞同 · 2 评论文章 这篇文章来学习一下现在卷积常见的几种实现方法。 1.直接卷积 在直接卷积中,卷积核(滤波器)通过在输入图像上滑动并与图像的每个位置进行逐元素相乘,然后将所有乘积相加得到输出的单个像素值。这个过程可以看作是在输入图像上进行的一种滑动窗口操作...
优化思路 数据重用 重复计算 参考: 什么是卷积? 卷积是一种数学运算,常用于信号处理和图像处理领域。在计算机视觉和深度学习中,卷积是一种重要的操作,用于提取图像或其他数据的特征。 在二维图像处理中,卷积操作可以理解为将一个滤波器(也称为卷积核)应用于输入图像的每个像素,通过对每个像素及其周围像素的加权求和来...
3. ImplicitGEMM实现卷积反向计算 3.1 ImplicitGEMM实现输入梯度计算 考虑步长(Stride) 3.2 ImplicitGEMM实现权重梯度计算 考虑步长(Stride) 完整代码: 参考: 上一篇文章详细介绍了ImplicitGEMM实现与优化方法。 卷积算子优化-3.1 CUDA实现-ImplicitGEMM卷积61 赞同 · 56 评论文章 这篇文章主要学习如何实现高性能的Im...
Qwesh157:卷积算子优化-1.卷积计算的特点11 赞同 · 2 评论文章 这篇文章来学习一下现在卷积常见的几种实现方法。 1.直接卷积 在直接卷积中,卷积核(滤波器)通过在输入图像上滑动并与图像的每个位置进行逐元素相乘,然后将所有乘积相加得到输出的单个像素值。这个过程可以看作是在输入图像上进行的一种滑动窗口操作...