OLLAMA_MAX_VRAM:最大虚拟内存,默认为空。 OLLAMA_MODELS:模型目录,默认为空。 OLLAMA_NOHISTORY:是否保存历史记录,默认为 false。 OLLAMA_NOPRUNE:是否启用剪枝,默认为 false。 OLLAMA_NUM_PARALLEL:并行数,默认为 1。 OLLAMA_ORIGINS:允许的来源,默认为空。 OLLAMA_RUNNERS_DIR:运行器目录,默认为空。 OLLAM...
"OLLAMA_MAX_LOADED_MODELS": {"OLLAMA_MAX_LOADED_MODELS",MaxRunners,"Maximum number of loaded models (default 1)"}, "OLLAMA_MAX_QUEUE": {"OLLAMA_MAX_QUEUE",MaxQueuedRequests,"Maximum number of queued requests"}, "OLLAMA_MAX_VRAM": {"OLLAMA_MAX_VRAM",MaxVRAM,"Maximum VRAM"}, "OL...
"OLLAMA_MAX_LOADED_MODELS": {"OLLAMA_MAX_LOADED_MODELS", MaxRunners, "Maximum number of loaded models (default 1)"}, "OLLAMA_MAX_QUEUE": {"OLLAMA_MAX_QUEUE", MaxQueuedRequests, "Maximum number of queued requests"}, "OLLAMA_MAX_VRAM": {"OLLAMA_MAX_VRAM", MaxVRAM, "Maximum VRAM"...
"OLLAMA_FLASH_ATTENTION": "Enabled flash attention" "OLLAMA_GPU_OVERHEAD": "Reserve a portion of VRAM per GPU (bytes)" "OLLAMA_HOST": "IP Address for the ollama server (default 127.0.0.1:11434)" "OLLAMA_KEEP_ALIVE": "The duration that models stay loaded in memory (default \"5m\"...
llm_load_tensors: offloading 56 repeating layers to GPU llm_load_tensors: offloading non-repeating...
MaxVRAM > 0 { memoryAvailable = envconfig.MaxVRAM } slog.Debug("evaluating", "library", gpus[0].Library, "gpu_count", len(gpus), "available", format.HumanBytes2(memoryAvailable)) 17 changes: 5 additions & 12 deletions 17 llm/server.go Original file line numberDiff line numberDiff ...
我看到你正在使用Ollama 0.1.35。你能尝试使用最新版本吗?
GGUF 支持模型量化(4 位、8 位、F16),在 GPU 变得越来越昂贵的情况下,节省 vRAM 成本也非常...
我看到你正在使用Ollama 0.1.35。你能尝试使用最新版本吗?
# 个人将新模型命名 xxxx-max-context 能区分这是最大 token 配置模型 ollama create llama3.1:8b-max-context -f Modelfile 运行命令后,提示 success。 使用上述方式,可以将所有模型都使用最新配置重新生成。 后续只要使用 xxxx-max-context 结尾模型,都可以使用模型支持的最大化 token。当然通过 API 调用也同样...