PARAMETERnum_ctx32768 之后就是创建新的模型 说明 以上是基于ollama 的num_ctx 修改,实际上也说了内部是基于lama.cpp的,我在测试的时候开始的时候发现修改是成功了,但是没有使用gpu,之后进行cuda 升级,以及机器重启,之后发现又可以使用gpu 了,同时调整还会占用比较的资源,实际还是需要多测试,大模型推理没有gpu 速...
对于调用chat api 可以直接通过api 调用参数传递,对于兼容openai 模式的暂时就不行了(官方说是不兼容,实际上目前openai 的api 可以进行一些额外参数的传递,只要兼容也可以解决) 接口参数传递 chat 模式的, 如下包含了支持的参数 curl http://localhost:11434/api/generate -d '{ "model": "llama3", "prompt":...
Actions Security Insights Additional navigation options New issue Closed What is the issue? It seems like Ollama (non-docker) models crash and restart while any output is being processed With 70k Context: Jun 23 20:18:29 main ollama[7231]: llm_load_tensors: offloading 9 repeating layers to...