量化Quantization是将模型参数从浮点转换为低比特宽度(如8位或4位)的固定点模型,以降低复杂性和大小,适用于边缘设备,同时保持性能。量化方法主要有PTQ和QAT两种。PTQ为训练后量化,直接在已训练模型上进行量化,无需额外的数据集或训练过程。量化过程涉及将权重映射到特定的整数区间,如[-128,127],...
PTQ的步骤 从预训练模型开始,并使用量化数据集对其进行量化 量化数据用来对模型进行量化,其可以是训练数据集的子集 量化过程:计算权重和激活值的动态范围(Gather layer statistics),用于确定量化参数(q-parms) 使用量化参数量化模型 量化感知训练 Quantization Aware Training (QAT)[1] QAT的步骤 从预训练模型开始,在...