终于用到Qwen了 | 升级了64G内存,折腾一天,克服了Ollama和Ooba莫名其妙只调用E核导致推理速度极慢的问题,成功在本地部署了Qwen1.5-72B(Q3K_M或Q4_0量化,极限了),推理速度属于可以接受(usable),之前干不动的Mixtral8x7b现在毫无压力。llama.cpp的offload to GPU是真神。