如果能接受 2-3%损失,8B 模型用 4bit 量化,70B 模型用 3bit 量化。 目前效果最好的中文微调版是 HuggingFace 社区的zhouzr/Llama3-8B-Chinese-Chat-GGUF 模型,该模型采用 firefly-train-1.1M、moss-003-sft-data、school_math_0.25M、弱智吧(没错,就是那个弱智吧~)数据集,使模型能够使用中文回答用户的提问。
70B Instruct:Meta-Llama:3.7 万亿参数,采用 GGUF 训练的 LLM Meta-Llama 是一个具有 3.7 万亿参数的大型语言模型,由 Google AI 开发。其接受过 GGUF(大规模生成 Unfrozen)的训练,使其能够有效处理广泛的自然语言任务,包括对话生成、问答、摘要和翻译。Meta-Llama 在 GLUE 和 SuperGLUE 等基准测试中表...
HuggingChat:https://huggingface.co/chat/ 资源:Meta-Llama-3-8B-Instruct-GGUF:https://huggingfac...
注意3:在这个示例中,我使用了Q2版本的Meta-Llama-3-8B-Instruct.Q2_K.gguf。将其替换为Q4_K_M文件名以运行4位量化版本。 另一个终端窗口用于显示我们的极其简短(但有用)的 Python 代码。在激活了venv 的情况下运行: python .\ Llama3 - ChatAPI。py 慢慢地,Llama-3–8B会开始回复自我介绍 你已经准备好...
如果能接受 2-3%损失,8B 模型用 4bit 量化,70B 模型用 3bit 量化。 目前效果最好的中文微调版是 HuggingFace 社区的zhouzr/Llama3-8B-Chinese-Chat-GGUF 模型,该模型采用 firefly-train-1.1M、moss-003-sft-data、school_math_0.25M、弱智吧(没错,就是那个弱智吧~)数据集,使模型能够使用中文回答用户的提问...
综合来说,如果追求无任何性能损失,8B 模型用 8bit 量化,70B 模型用 4bit 量化。 如果能接受 2-3%损失,8B 模型用 4bit 量化,70B 模型用 3bit 量化。 目前效果最好的中文微调版是 HuggingFace 社区的zhouzr/Llama3-8B-Chinese-Chat-GGUF 模型,该模型采用 firefly-train-1.1M、moss-003-sft-data、school_...
有提供GGUF形式的LMStudioAI,也很直接地说:不适合内存不足的人。原作者也很逗趣地表示:是时候跟你的RAM做告别了。但不管怎么说,已经在期待更多官方型号了。比如,400B那种。参考链接:[1]https://x.com/spectate_or/status/1788031383052374069[2]https://x.com/spectate_or/status/1787308316152242289[3]...
🎉According to the results from C-Eval and CMMLU, the performance of Llama3-70B-Chinese-Chat in Chinese significantly exceeds that of ChatGPT and is comparable to GPT-4! Developed by:Shenzhi Wang(王慎执) andYaowei Zheng(郑耀威)
Llama-3-Chinese-8B-Instruct:指令/chat模型,在Llama-3-Chinese-8B的基础上进一步通过500万高质量指令进行精调获得。 本期模型与中文羊驼一期和二期相关模型最大的区别在于使用了原版Llama-3词表,而未对词表进行扩充。其中主要理由有以下几点: ...
近期todo:录制b站视频、封装云端训练镜像、放出量化后gguf、ollama版本及教程 近期(预计一个半月后)还会开源一个浏览器插件,AI笔记功能+AI思维导图功能,在跟同学一起用闲时开发(他们俩是主力哈哈),欢迎关注~。 注意由于只训练了常见对话,base + sft版有可能会出现不符合预期的回复 (尤其是对于一些非常见回答),...