量化是一个信息有损压缩的过程,如果训练过程中使用FP32,在模型推理时使用Post-training Quantization(PTQ)直接量化为INT8模型,模型精度会存在一定损失。而量化感知训练(Quantization-aware-training, QAT)在模型训练过程中就引入了伪量化(Fake-quantization)来模拟量化过程中带来的误差,通过这种方式能够进一步减少量化后模型...
然而,量化过程并非无损压缩,模型精度会因量化而有所损失。为减少这种损失,量化感知训练(Quantization-aware-training, QAT)引入了伪量化(Fake-quantization)策略,在训练过程中模拟量化过程中的误差,以进一步减少模型量化后的精度损失。量化感知训练在训练过程加入了模拟量化,与传统的后训练量化(Post-tr...