我正在使用 AMD 7965WX CPU(GPU 中加载 64 层)的 2xRTX4090 上运行 70B 模型(Q5_K_M GGUF Quant),每秒获得大约 7-8 个令牌。 2、这真的比 meditron 更好吗? Meditron 继续进行医学领域的预训练和广泛的全面微调(不仅是 LORA)...显然它仍然基于 llama2...我使用了它(我是一名医学生),它确实比 llam...