llama.cpp 支持两种量化类型:"type-0" (Q4_0,Q5_0) 和 "type-1" (Q4_1,Q5_1)。 在"type-0" 中,权重w通过w = d * q从量化值q获取,其中d是块缩放值。 在"type-1" 中,权重由w = d * q + m给出,其中m是块的最小值。 例如: GGML_TYPE_Q3_K- "type-0" 3位量化在包含16个块的超...