vllm显存使用比例,vllm是预先分配显存,如果没有什么特殊情况,建议配置到0.9以上。 此回答整理自...
kv_cache_size=3.91GiB gpu_memory_utilization=0.9 可以看出来基本占满了,gpu_memory_utilization默认开到了0.9,这个参数的高低代表了在使用GPU时,分配给模型和缓存的内存比例。果将 gpu_memory_utilization 设置为较高的值,这意味着模型可以使用更多的GPU内存。这通常会提高模型的性能,因为可以缓存更多的数据和中间结...