q2_k/q3_k_m:适合对精度要求不高的场景(如文本分类)。 q4_k_m/q5_k_m:精度损失可控,适合大多数生成任务(如问答、摘要)。 q6_k/q8_0:接近FP16精度,适合医疗、金融等高敏感场景。 三、选择建议 资源优先: q4_k_m:平衡内存与精度,适合大多数部署场景。 q5_k_m:对精度要求较高时推荐。 速度优先: q...
提供Q2_K至Q8_K等多种量化级别,其中字母后缀(如_M、_S)表示优化级别: Q4_K_M:中等优化级别,平衡推理速度与精度(常用推荐)。 Q5_K_S:轻量化级别,侧重减少内存占用 在GGUF的量化类型命名如Q4_K_M中,Q4表示模型的主量化精度为4比特,K和M分别代表量化过程中的分块策略(Block-wise Quantization)和混合精度...
访问 https://huggingface.co/join 注册 HuggingFace 账号(需要某上网条件)配置 HuggingFace SSH 公钥 将本地环境的 SSH 公钥添加到 HuggingFace,查看本地环境的 SSH 公钥(如果没有可以用 ssh-keygen -t rsa -b 4096 命令生成):cat ~/.ssh/id_rsa.pub 在 HuggingFace 的右上角点击头像,选择 Settings -...
按照https://towardsdatascience.com/quantize-llama-models-with-ggml-and-llama-cpp-3612dfbcc172这里对每个变体的说明: q2_k: Uses Q4_K for the attention.vw and feed_forward.w2 tensors, Q2_K for the other tensors. q3_k_l: Uses Q5_K for the attention.wv, attention.wo, and feed_forward...
q3_k_l:将 Q5_K 用于 attention.wv、attention.wo 和 feed_forward.w2 张量,否则Q3_K q3_k_m:将 Q4_K 用于 attention.wv、attention.wo 和 feed_forward.w2 张量,否则Q3_K q3_k_s:将Q3_K用于所有张量 q4_0:原始量化方法,4 位。 q4_1:精度高于q4_0但不如q5_0。但是,与 q5 模型相比,推理速度...
每个子块都有自己的比例和最小值,这些比例和最小值被量化为有限数量的位 - 通常为 8、6 或 4,具体取决于特定的量化方法,例如 Q2_K、Q4_K 或 Q5_K。这些比例和最小值有助于确保模型在精度降低时也能保持准确性。虽然该方法比较复杂,量化速度也比较慢(特别是与没有 K-Quants 的 GGUF 量化相比),...
开始将模型转换为FP16精度的 GGUF 模型,并分别用Q8_0、Q6_K、Q5_K_M、Q5_0、Q4_K_M、Q4_0、Q3_K、Q2_K方法来量化模型: bash quantize.sh Llama-3.2-3B-Instruct 脚本执行完后,确认成功转换为FP16精度的 GGUF 模型和量化后的 GGUF 模型: ...
选择合适的位量化并不简单,因为它会根据你的具体机器而不同。然而,对于大多数人而言,4位或6位的模型(Q4或Q6)可以作为一个不错的起点。 在下载.gguf文件时,放在ComfyUI/models/unet目录下。 在T5-XXL编码器模型方面,你可以在这里找到它,作者建议“最好使用Q5_K_M或更高级的配置来获得最佳效果”。
method = "q4_k_m" qtype = f"{model_name}/{model_name.lower()}.{method.upper()}.gguf" !./llama.cpp/llama-quantize {fp16} {qtype} {method} 其他推荐的方法包括q5_k_m、q6_k和q8_0,其中q8_0是8位量化,与原始模型权重相比几乎无损。
我们使用llama-quantize量化模型,它提供各种量化位数的模型:Q2、Q3、Q4、Q5、Q6、Q8、F16。量化模型的命名方法遵循: Q + 量化比特位 + 变种。具体的量化参数可以在llama.cpp目录下使用./llama-quantize查看。部分示例如下: 对于7b的模型,下面我对其做一个q4量化,参考指令如下: ...