Complete Open Source: OpenCoder ensures full transparency by releasing not only the model weights and forthcoming inference code but also the complete data-cleaning code for training. This release includes high-
The Claude Code alternative. Contribute to ducan-ne/opencoder development by creating an account on GitHub.
1. File-level 去重是代码数据去重的最优选择 OpenCoder 在全量 Github 上 485 百万个 Python 文件上进行了 repo-level,file-level 的去重处理,并在相同参数下训练了两个 1.5B 大小的 LLM。首先 repo-level 去重保留的 token 数量近乎是 file-level 的三倍,其次从下游数据集性能表现发现 file-level 去重效...
Github: https://github.com/OpenCoder-llm/OpenCoder-llm Huggingface: huggingface.co/OpenCode OpenCoder 是开源、可复现的codeLLM Model,性能可与同领域第一梯队模型媲美。我们不仅提供了最终的模型,还提供了可复现的训练数据、完整的数据处理Pipeline、严格的实验消融结果与详细的训练流程,供研究使用。即使一些同学...
项目官网:opencoder-llm.github.ioGitHub仓库: https://github.com/OpenCoder-llm/OpenCoder-llmHuggingFace模型库:https://huggingface.co/collections/infly/opencoder-672cec44bbb86c39910fb55ecarXiv技术论文:https://arxiv.org/pdf/2411.04905 2 OpenCoder主要功能与应用场景 ...
项目主页:https://opencoder-llm.github.io/ 模型/数据集下载:https://huggingface.co/OpenCoder-LLM 代码仓库:https://github.com/OpenCoder-llm/OpenCoder-llm 预训练阶段 预训练数据构成了大型语言模型能力的基础。在开源社区中,The Stack v2 (Lozhkov et al., 2024a) 提供了一个有价值的代码数据集,有力地...
项目主页:https://opencoder-llm.github.io/ 模型/数据集下载:https://huggingface.co/OpenCoder-LLM 代码仓库:https://github.com/OpenCoder-llm/OpenCoder-llm 预训练阶段 预训练数据构成了大型语言模型能力的基础。在开源社区中,The Stack v2 (Lozhkov et al., 2024a) 提供了一个有价值的代码数据集,有力地...
项目主页:https://opencoder-llm.github.io/ 模型/数据集下载:https://huggingface.co/OpenCoder-LLM ...
代码仓库:https://github.com/OpenCoder-llm/OpenCoder-llm 预训练阶段 预训练数据构成了大型语言模型能力的基础。在开源社区中,The Stack v2 (Lozhkov et al., 2024a) 提供了一个有价值的代码数据集,有力地支持了代码语言模型的训练。然而,The Stack v2 的训练数据部分质量不足,无法使语言模型达到顶尖性能。
项目主页:https://opencoder-llm.github.io/ 模型/数据集下载:https://huggingface.co/OpenCoder-LLM 代码仓库:https://github.com/OpenCoder-llm/OpenCoder-llm 预训练阶段 预训练数据构成了大型语言模型能力的基础。在开源社区中,The Stack v2 (Lozhkov et al., 2024a) 提供了一个有价值的代码数据集,有力地...