示例:DeepSeek Coder V2可能支持比 V1 更长的代码上下文,而DeepSeek V3可能使用稀疏激活来降低推理成...
2025年2月10日,KTransformers团队(之前以本地CPU/GPU混合推理开源项目DeepSeek-V2而闻名)发布了一项新的技术成果,宣布支持DeepSeek-R1/V3模型,并展示了其在本地运行时的卓越性能。通过使用仅14GB显存和382GB内存的配置,他们成功运行了DeepSeek-Coder-V3/R1模型的Q4_K_M版本,并实现了高达3~28倍的速度提升。 性...
以DeepSeek-Coder-v1.5 7B 为基础,在从 Common Crawl 中提取的数学相关 token 以及自然语言和代码数据上预训练,训练规模达 5000 亿 token。 DeepSeekMath 7B 在竞赛级 MATH 基准测试中取得 51.7% 的成绩,接近 Gemini-Ultra 和 GPT-4 的性能水平。 DeepSeek 视觉 - 语言模型类 DeepSeek-VL: 开源的视觉 - ...
基于ktransformers 框架来部署DeepSeek R1 和 V3 模型实现更快的本地推理速度 概述 ktransformers 团队(之前以 DeepSeek-V2 的本地 CPU/GPU 混合推理开源项目而闻名)宣布支持 DeepSeek R1 和 V3 模型。在本地运行 671B DeepSeek-Coder-V3/R1 的 Q4_K_M 版本,仅需 14GB VRAM 和 382GB DRAM。 >> 展示...
max_new_tokens 1000:设置生成 token 的最大数量。 参考资料 GitHub 地址:https://github.com/kvcache-ai / ktransformers 本地化 671B DeepSeek-Coder-V3 / R1 教程:https://github.com/kvcache-ai / ktransformers / blob / main / doc / en /DeepseekR1_V3_tutorial.md...
DeepSeek-Coder-V2的Q4_K_M版本仅需21GBVRAM和136GB DRAM,即可在本地桌面机上运行。在BigCodeBench上的表现优于GPT4-0613。 >>DeepSeek-Coder-V2速度:通过MoE卸载和注入高级内核,实现了2K提示预填充速度为126 tokens/s,生成速度为13.6 tokens/s。
vocab.type_pre = LLAMA_VOCAB_PRE_TYPE_DEEPSEEK_CODER; vocab.tokenizer_clean_spaces = false; } else if ( tokenizer_pre == "deepseek-v3") { vocab.type_pre = LLAMA_VOCAB_PRE_TYPE_DEEPSEEK3_LLM; vocab.tokenizer_clean_spaces = false; } else if ( tokenizer_pre == "falcon") { vocab...
max_new_tokens 1000:设置生成 token 的最大数量。 参考资料 GitHub 地址:https://github.com/ kvcache-ai / ktransformers 本地化 671B DeepSeek-Coder-V3 / R1 教程:https://github.com/ kvcache-ai / ktransformers / blob / main / doc / en / DeepseekR1_V3_tutorial.md...
max_new_tokens 1000:设置生成 token 的最大数量。 参考资料 GitHub 地址:https://github.com/kvcache-ai / ktransformers 本地化 671B DeepSeek-Coder-V3 / R1 教程:https://github.com/kvcache-ai / ktransformers / blob / main / doc / en /DeepseekR1_V3_tutorial.md...