./llama-cli -m /Users/chuqi/project/MyProject/python/LLaMA-Factory/output/qwen2.5-1.5b/gguf/model-q4_0.gguf -p "你好,测试一下!" -n 128 最后看下量化后的模型大小吧 3.09GB的模型Q4量化只有935MB 另附 支持的量化类型 llama.cpp 支持多种量化格式,主要基于整数(Integer Quantization),常见类型...