特定变体:量化方案的类型,采用了不同的量化方案来处理 attention.wv、attention.wo 和 feed_forward.w2 张量,量化方案见上表 q2_k: Uses Q4_K for the attention.vw and feed_forward.w2 tensors, Q2_K for the other tensors q3_k_l: Uses Q5_K for the attention.wv, attention.wo, and feed_forwa...
崩溃率100%!实测一个让QwQ彻底陷入崩溃的问题 | 朋友测试了Q4和Q8版本,我直接M4 max 128G上fp16版本去推理,本来以为万无一失,结果我还是太年轻了。 #QwQ-32 问题:三个人打台球,两人对局一人观战,输的人下场换观战的人上场,如此往复,最终,A输了6局,B输了8局,C输了10局,问各赢多少局?Thinking用了9K附近...
11 + filetypeQ4_1 12 + filetypeQ4_1_F16 13 + filetypeQ8_0 filetype = iota + 2 14 + filetypeQ5_0 15 + filetypeQ5_1 16 + filetypeQ2_K 17 + filetypeQ3_K_S 18 + filetypeQ3_K_M 19 + filetypeQ3_K_L 20 + filetypeQ4_K_S 21 + filetypeQ4_K_M 22 + filetypeQ5...
Q4_017.507761.53 Q4_117.187721.68 Q5_016.194781.60 Q5_115.851811.68 Q8_015.652892.13 FP1615.6231172.82 FP3215.6231985.64 With cuBLAS Measurements were made on Intel i7 13700K & NVIDIA 3060 Ti 8 GB. The model isRWKV-4-Pile-169M, 12 layers were offloaded to GPU. ...
671b-q4_K_M:20小时前更新,大小404GB,哈希值 5da0e2d4a9e0 671b-q8_0:20小时前更新,大小713GB,哈希值 96061c74c1a5 fp16版本高达1.3TB显存占用,真土豪#DeepSeek-V3 编辑于 2025-01-17 15:20・IP 属地广东 写下你的评论... 登录知乎,您可以享受以下权益: ...
基于不同显卡的DeepSeek速度实测 总结:一般模型文件的大小比显存小,或者超过≤1G就可以跑的比较流畅,适用于所有本地大模型 😊。 集显: 建议:15b_Q4/15b_Q8 速度在15 tokens/s 🟢 可尝试:15b_f - 科技糖于20250227发布在抖音,已经收获了1.3万个喜欢,来抖音,
WeightType.Q8_0, WeightType.Q8_1, } KQUANT_TYPES = { WeightType.Q2_K, WeightType.Q3_K, WeightType.Q4_K, WeightType.Q5_K, WeightType.Q6_K, } IMATRIX_QUANT_TYPES = { WeightType.IQ1_M, WeightType.IQ1_S, WeightType.IQ2_XXS, ...
92 106 | Metric | L2 7b q2_K | L3 8b q2_K | L2 7b q4_K_M | L3 8b q4_K_M | L2 7b q6_K | L3 8b q6_K | L2 7b q8_0 | L3 8b q8_0 | 93 107 |---|---|---|---|---|---|---|---
The models are RWKV v4 Pile 169M, RWKV v4 Pile 1.5B. FormatPerplexity (169M)Latency, ms (1.5B)File size, GB (1.5B) Q4_0 17.507 76 1.53 Q4_1 17.187 72 1.68 Q5_0 16.194 78 1.60 Q5_1 15.851 81 1.68 Q8_0 15.652 89 2.13 FP16 15.623 117 2.82 FP32 15.623 198 5.64 With cuBLAS...
| Metric | L2 7b q2_K | L3 8b q2_K | L2 7b q4_K_M | L3 8b q4_K_M | L2 7b q6_K | L3 8b q6_K | L2 7b q8_0 | L3 8b q8_0 | |---|---|---|---|---|---|---|---