Numba库也支持编写CUDA算子直接操作Pytorch张量的显存空间,和Taichi相比,它需要从Kernel级编写算子了,但和传统的CUDA编程相比,它又支持使用Python编写CUDA程序。 同样,根据上面的需求,可以写出下面的程序: from numba import cuda # 定义算子 @cuda.jit def numba_gather(src, idx, dst, n, m, c): for i in ...