在研究CUDA实现算子之前,先看看几个实用的CUDA工具,这些工具可以帮助检查CUDA代码里的访存错误和研究CUDA代码的性能瓶颈,而且对Native和Python程序都适用。 检查各算子运行时间 检查各算子的运行时间,可以使用nvprof工具,这个工具是安装CUDA时自带的。nvprof的gpu trace功能能够检测出一个程序内部各CUDA算子的运行时间、Kerne...