cn/AI-ModelScope/dbrx-instruct.git 推理硬件与推理框架 8*A800 SIMX 80G vllm(需要安装最新的版本或者从源码编译安装) 四卡推理,vllm 内存使用率设置0.9, max-len为全量(设置少点还可以少点内存) 4*70=280G显存 8*4090 24G vllm(需要安装最新的版本或者从源码编译安装) 无法部署服务,量化版本应该是...