加载 Unsloth 版本的 DeepSeek-R1-Distill-Llama-8B https://huggingface.co/unsloth/DeepSeek-R1-Dis...
DeepSeek-R1-Distill-Llama-8B语言模型推理DeepSeek-R1-Distill-Llama-8B 是 DeepSeek 团队开发的高性能语言模型,基于 Llama 架构并经过强化学习和蒸馏优化。该模型在推理、代码生成和多语言任务中表现出色,是开源社区中首个通过纯强化学习提升推理能力的模型。它支持商业使用,允许修改和衍生作品,适合学术研究和企业...
DeepSeek-R1-Distill-Llama-8B DeepSeek-R1系列模型专注于提升大型语言模型的推理能力。它通过大规模强化学习训练,无需监督微调,从而涌现出强大的推理行为。DeepSeek-R1通过引入冷启动数据,在数学、代码和推理任务上实现了与OpenAI-o1相媲美的性能。该系列模型还开源了DeepSeek-R1-Zero、DeepSeek-R1以及六个基于Llama...
ollama run deepseek-r1:1.5b 我的GTX4060显卡,可以运行DeepSeek-R1-Distill-Llama-8B蒸馏模型,为了演示快速我使用1.5b模型,大小仅为1.1G 完整量化模型为ollama run deepseek-r1:671b 404G,跟openai-o1掰手腕的正是他,量化模型与显存几乎1:1,如果运行671b 404G,那么显存也要在671G以上,我的GTX4060仅有8G...
3、 下载预训练模型。国内用modelscope比较好下载 modelscope download deepseek-ai/DeepSeek-R1-Distill-Llama-8B --cache_dir ./model_cache 4、加载预训练模型 fromunslothimportFastLanguageModelimporttorchprint('加载预训练模型')model,tokenizer=FastLanguageModel.from_pretrained(model_name="/local_path/model...
打开ollama官网:https://ollama.com/ 然后点击左上角的models 选择DeepSeek-R1模型 模型的大小大致分为1.5b,7b,8b,14b,32b,70b,671b 根据自己的电脑显卡和配置进行选择相应的版本 显卡要求 DeepSeek-R1-1.5b NVIDIA RTX 3060 12GB or higher DeepSeek-R1-7b NVIDIA RTX 3060 12GB or higher ...
新增DeepSeek-R1-Distill-Llama-8B和DeepSeek-R1-Distill-Llama-70B的README说明 . Modification Please briefly describe what modification is made in this PR. Self-test (Optional) If modifications to this PR may cause/fix function/accuracy/performance DTSs/issues, a self-inspection record needs to be...
对于没有卡的普通玩家来说,运行的条件苛刻,且门槛极高。基于此,我们不妨将目光转向 DeepSeek R1 四款分别对应 Qwen 和 Llama 的蒸馏小模型: DeepSeek-R1-Distill-Llama-8B DeepSeek-R1-Distill-Qwen-14B DeepSeek-R1-Distill-Qwen-32B DeepSeek-R1-Distill-Llama-70B ...
对于没有卡的普通玩家来说,运行的条件苛刻,且门槛极高。基于此,我们不妨将目光转向 DeepSeek R1 四款分别对应 Qwen 和 Llama 的蒸馏小模型: DeepSeek-R1-Distill-Llama-8B DeepSeek-R1-Distill-Qwen-14B DeepSeek-R1-Distill-Qwen-32B DeepSeek-R1-Distill-Llama-70B ...
DeepSeek-R1-Distill-Qwen-1.5B 28.9 52.7 83.9 33.8 16.9 954 DeepSeek-R1-Distill-Qwen-7B 55.5 83.3 92.8 49.1 37.6 1189 DeepSeek-R1-Distill-Qwen-14B 69.7 80.0 93.9 59.1 53.1 1481 DeepSeek-R1-Distill-Qwen-32B 72.6 83.3 94.3 62.1 57.2 1691 DeepSeek-R1-Distill-Llama-8B 50.4 80.0 89.1 49.0...