模型用的sakura-13b-lnovel-v0.9b-Q4_K_M.gguf
2024-02-14 16:36:19 山之仙智升main[40056] INFO Current model config: SakuraModelConfig(model_name_or_path='sakura-13b-lnovel-v0.9b-Q4_K_M.gguf', use_gptq_model=False, use_awq_model=False, trust_remote_code=True, text_length=512, llama=False, llama_cpp=True, use_gpu=False, n...
20231125-v0.9.0pre2🤗Sakura-13B-LNovel-v0.9.0pre2---🤗Sakura-13B-LNovel-v0.9.0pre2-GGUF- 目前仍为实验版本,翻译质量在文风与流畅度上强于GPT-3.5,但词汇量逊于GPT-3.5. 个人使用推荐GPT4. TODO 将dev_server分支合并到主分支,并将api格式改为openai like api格式。
模型用的sakura-13b-lnovel-v0.9b-Q4_K_M.gguf
以运行 sakura-13b-lnovel-v0.9b-Q4_K_M.gguf 模型为例: python server.py \ --model_name_or_path ./models/sakura-13b-lnovel-v0.9b-Q4_K_M.gguf \ --llama_cpp \ --use_gpu \ --model_version 0.9 \ --trust_remote_code \ --no-auth server.py 相关参数及说明 # 通用参数 --model_...
llama.cpp GGUF模型(使用Qwen-14B v0.9模型进行测试) 模型量化类型模型大小推荐显存大小 fp16 26.3G 超出游戏显卡显存范围 Q8_0 14G 24G Q6_K 11.4G 20G Q5_K_M 10.1G 16G Q4_K_M 8.8G 16G Q3_K_M 7.2G 16G Q2_K 6.1G 12G模型详情
[Notes]\Sakura-13B-Galgame\models\Sakura-14B-Qwen2beta-v0.10pre0 --use_gptq_model --model_version 0.10 --trust_remote_code --no-auth或./server.exe --model_name_or_path sakura-13b-lnovel-v0.9.0pre2-Q4_K_M.gguf --trust_remote_code --no-auth --log info --model_version 0.9 -...
20231125-v0.9.0pre2🤗Sakura-13B-LNovel-v0.9.0pre2---🤗Sakura-13B-LNovel-v0.9.0pre2-GGUF- 目前仍为实验版本,翻译质量在文风与流畅度上强于GPT-3.5,但词汇量逊于GPT-3.5. 个人使用推荐GPT4. TODO 将dev_server分支合并到主分支,并将api格式改为openai like api格式。
发布时间-底模-参数量-版本Transformers模型GGUF量化模型GPTQ 8bit量化GPTQ 4bit量化GPTQ 3bit量化AWQ量化 20231026-Baichuan2 13B v0.8🤗Sakura-13B-LNovel-v0.8🤗Sakura-13B-LNovel-v0_8-GGUF🤗Sakura-13B-LNovel-v0_8-8bit🤗Sakura-13B-LNovel-v0_8-4bit🤗Sakura-13B-LNovel-v0_8-3bit...
发布时间-底模-参数量-版本Transformers模型GGUF量化模型GPTQ 8bit量化GPTQ 4bit量化GPTQ 3bit量化AWQ量化 20231026-Baichuan2 13B v0.8🤗Sakura-13B-LNovel-v0.8🤗Sakura-13B-LNovel-v0_8-GGUF🤗Sakura-13B-LNovel-v0_8-8bit🤗Sakura-13B-LNovel-v0_8-4bit🤗Sakura-13B-LNovel-v0_8-3bit...