等你来答 切换模式 登录/注册 知乎用户8k921X 【A100/4090(24GB)+ 至少 128GB 内存】 首选模型:DeepSeek Coder 33B FP16/DeepSeek Math 67BRAG(检索增强) 普通电脑:GGUF 量化 + RAG 服务器:vLLM / TGI + RAG 数据投喂:向量数据库 存书(LlamaIndex + FAISS) 1.下载 Dee
示例:DeepSeek Coder V2可能支持比 V1 更长的代码上下文,而DeepSeek V3可能使用稀疏激活来降低推理成...
当我为deepseek-coder:33b-instruct模型使用时,我必须使用--pad-vocab和--vocab-type = bpe,但看到...
The DeepSeek-Coder-Instruct-33B model after instruction tuning outperforms GPT35-turbo on HumanEval and achieves comparable results with GPT35-turbo on MBPP. More evaluation details can be found in the Detailed Evaluation. 3. Procedure of Data Creation and Model Training Data Creation Step 1: ...
DeepSeek Coder: 由一系列代码语言模型组成,在 2 万亿 token 上训练,数据集含 87% 代码和 13% 中英文自然语言,模型尺寸从 1B 到 33B 版本不等。 通过在项目级代码语料库预训练,采用 16K 窗口大小和额外填空任务,支持项目级代码补全和填充,在多种编程语言和基准测试中达到开源代码模型先进性能。
用于 代码补全、自动编程,如:DeepSeek-Coder、CodeLlama、BigCode 适用领域:IDE 代码补全、AI 编程助手(如 Copilot) 多模态大模型(Multimodal LLM) 支持 文本 + 图像 + 语音 处理,如:Gemini、Qwen-VL、CogView 适用领域:图像理解、OCR 识别、智能创作(如 Midjourney)。
libc++abi: terminating due to uncaught exception of type std::out_of_range: unordered_map::at: key not found zsh: abort ./build/bin/main -m ./deepseek-coder-33b-instruct/ggml-model-Q8_0.gguf --seed
DeepSeek Coder is composed of a series of code language models, each trained from scratch on 2T tokens, with a composition of 87% code and 13% natural language in both English and Chinese. We provide various sizes of the code model, ranging from 1B to 33B versions. Each model is pre-...
GGUF(llama.cpp) GPTQ(exllamav2) How to use the deepseek-coder-instruct to complete the code? 8. Resources 9. License 10. Citation 11. Contact [ Homepage] | [🤖 Chat with DeepSeek Coder] | [🤗 Models Download] | [Discord] | [WeChat (微信)] Paper Link👁️ 1. Introduction...
# 手动导入GGUF 文件ollama create deepseek-custom -f Modelfile 2. 模型配置模板 FROM deepseek-ai/deepseek-coder-33b-instruct:latest PARAMETER num_gpu 4 PARAMETER temperature 0.7 SYSTEM """ 你是一个严谨的代码助手,使用中文回答问题 """