与任何其他CUDA代码一样,启动具有多个块的操作只是扩大所做工作的一种方式,当然,如果您想要使用具有多个SMs的GPU的资源,这是必要的。由于tensorcore单元是per-SM资源,因此有必要见证CUDA GPU为tensorcore ops提供接近其满额定吞吐量的任何东西。 为什么即使每个thread都在执行相同的执行,每个块的threads数量也很重要? ...