Triton 内核的性能可进一步提升,这也是其相较于 torch.compile 的一个显著优势。
有pytorch developer表明他一般先torch.co…torch.compile在gpu环境下会生成triton kernel,所以会说先看看...
torch.compile在gpu环境下会生成triton kernel,所以会说先看看torch.compile的性能提升如何。如果自动生成...