OLLAMA_MAX_LOADED_MODELS:最大加载模型数,默认为 1。 OLLAMA_MAX_QUEUE:最大队列数,默认为空。 OLLAMA_MAX_VRAM:最大虚拟内存,默认为空。 OLLAMA_MODELS:模型目录,默认为空。 OLLAMA_NOHISTORY:是否保存历史记录,默认为 false。 OLLAMA_NOPRUNE:是否启用剪枝,默认为 false。 OLLAMA_NUM_PARALLEL:并行数,默...
"OLLAMA_MAX_LOADED_MODELS": {"OLLAMA_MAX_LOADED_MODELS",MaxRunners,"Maximum number of loaded models (default 1)"}, "OLLAMA_MAX_QUEUE": {"OLLAMA_MAX_QUEUE",MaxQueuedRequests,"Maximum number of queued requests"}, "OLLAMA_MAX_VRAM": {"OLLAMA_MAX_VRAM",MaxVRAM,"Maximum VRAM"}, "OL...
"OLLAMA_MAX_LOADED_MODELS": {"OLLAMA_MAX_LOADED_MODELS", MaxRunners, "Maximum number of loaded models (default 1)"}, "OLLAMA_MAX_QUEUE": {"OLLAMA_MAX_QUEUE", MaxQueuedRequests, "Maximum number of queued requests"}, "OLLAMA_MAX_VRAM": {"OLLAMA_MAX_VRAM", MaxVRAM, "Maximum VRAM"...
OLLAMA_DEBUG: 显示额外的调试信息(例如:OLLAMA_DEBUG=1)。 OLLAMA_HOST: Ollama 服务器的 IP 地址(默认值:127.0.0.1:11434)。 OLLAMA_KEEP_ALIVE: 模型在内存中保持加载的时长(默认值:“5m”)。 OLLAMA_MAX_LOADED_MODELS: 每个 GPU 上最大加载模型数量。 OLLAMA_MAX_QUEUE: 请求队列的最大长度。 O...
OLLAMA_MAX_QUEUE:请求队列长度,默认值为512,可以根据情况设置,超过队列长度请求被抛弃 OLLAMA_DEBUG:输出 Debug 日志标识,应用研发阶段可以设置成1,即输出详细日志信息,便于排查问题 OLLAMA_MAX_LOADED_MODELS:最多同时加载到内存中模型的数量,默认为1,即只能有 1 个模型在内存中 ...
(如:纯数字如 300 代表 300 秒,0 代表处理请求响应后立即卸载模型,任何负数则表示一直存活);我们可设置成24h,即模型在内存中保持 24 小时,提高访问速度OLLAMA_NUM_PARALLEL:请求处理并发数量,默认为1,即单并发串行处理请求,可根据实际情况进行调整OLLAMA_MAX_QUEUE:请求队列长度,默认值为512,可以根据情况设置,...
API端点。保持模型在内存中或立即卸载?默认模型保留5分钟后卸载。使用/api/generate和/api/chat API端点的keep_alive参数控制模型在内存中的保留时间。通过OLLAMA_KEEP_ALIVE环境变量或API参数覆盖默认设置。管理服务器可以排队的最大请求数量?设置OLLAMA_MAX_QUEUE调整可排队的请求数量,防止服务器过载。
OLLAMA_MAX_QUEUE- The maximum number of requests Ollama will queue when busy before rejecting additional requests. The default is 512 Note: Windows with Radeon GPUs currently default to 1 model maximum due to limitations in ROCm v5.7 for available VRAM reporting. Once ROCm v6.2 is available,...
例如,你可能对OLLAMA_HOST、OLLAMA_KEEP_ALIVE和OLLAMA_MAX_QUEUE等配置项感兴趣。 输出或展示解析后的配置信息: 你可以直接查看编辑器中的内容,或者使用命令行工具(如grep)来过滤出特定的配置项。 bash grep -A 1 '\[Service\]' /etc/systemd/system/ollama.service 这个命令会输出[Service]部分及其后的...
OLLAMA_MAX_QUEUE Maximum number of queued requests OLLAMA_MODELS The path to the models directory OLLAMA_NUM_PARALLEL Maximum number of parallel requests OLLAMA_NOPRUNE Do not prune model blobs on startup OLLAMA_ORIGINS A comma separated list of allowed origins OLLAMA_SCHED_SPREAD Always schedul...