只能说PyTorch的量化训练支持还是不太好。在现有的框架下,如果不使用Fake Quantization来进行训练,可能就会导致后端的所有kernel重写,明显无论是FB还是NV目前都是没有精力来做这件事情的。退而求其次,就只能用FP32/FP16来模拟Int8了。另外diss一下PyTorch的Int8 Quantized Inference居然还没有支持GPU backend...