OpenCoder 在全量 Github 上 485 百万个 Python 文件上进行了 repo-level,file-level 的去重处理,并在相同参数下训练了两个 1.5B 大小的 LLM。首先 repo-level 去重保留的 token 数量近乎是 file-level 的三倍,其次从下游数据集性能表现发现 file-level 去重效果显著优于 repo-le
研究团队训练了两个 1.5B 的 LLM,其中一个使用原始数据训练,另一个则使用 GitHub 星级(星级 >=5)过滤后的数据进行训练,二者的 Benchmark 表现如下图所示: 可以发现使用原始数据训练的 LLM 优于使用过滤数据训练的 LLM,这一结果与 SantaCoder 的研究结果一致。此外,研究团队进一步展示了这两个 LLM 的训练损失,...
自2021 年,OpenAI 推出了 CodeX 以来,大语言模型(Large Language Model,LLM)的发展已经给代码生成工作带来了巨大的变革。作为 LLM 的一个重要分支,代码大模型(Code LLMs)不仅可以自动生成代码,还能够辅…
LLM高效预训练(一)LLM高效预训练(二)Llama3.1--预训练要点一览Qwen2技术报告Yi技术报告-划重点看细节InternLM系列模型GLM4报告的一些技术点从Yuan2.0到Yuan2.0-M32从loss视角理解大模型涌现能力 数据:训练数据合成(一)LLM预训练数据策略(一)预训练数据处理--长度分解 长上下文:LLM长上下文的问题解锁大模型长上下文...
研究团队推出了 OpenCoder,这是一系列能力达到第一梯队的 CodeLLM,不仅在性能上可与领先模型媲美,还为研究社区提供了全方面的构建细节。 本文的共同第一作者是墨尔本大学计算机科学硕士黄思明和复旦大学计算机科学硕士程天豪。OpenCoder 项目是二人在 INF 实习期间与 M-A-P 开源项目合作的成果,由 INF 主导,M-A-P ...
代码仓库:https://github.com/OpenCoder-llm/OpenCoder-llm 预训练阶段 预训练数据构成了大型语言模型能力的基础。在开源社区中,The Stack v2 (Lozhkov et al., 2024a) 提供了一个有价值的代码数据集,有力地支持了代码语言模型的训练。然而,The Stack v2 的训练数据部分质量不足,无法使语言模型达到顶尖性能。
通过提供这样的开放性,OpenCoder希望扩大对顶尖代码LLM各个方面的访问,成为一款强大且作为开放基础的模型,从而加速研究进展,并实现代码人工智能领域的可重复性提升。 如图1所示,OpenCoder在所有完全开放的模型(即具有开放模型权重和可重复数据集)以及其他开放访问模型(即仅有开放模型权重)中,均表现出优越性,尤其是在参数...
为弥补这一差距,研究团队推出了 OpenCoder,这是一系列能力达到第一梯队的 CodeLLM,不仅在性能上可与领先模型媲美,还为研究社区提供了全方面的构建细节。不同于大多数以往的工作,OpenCoder 不仅公开了模型权重和推理代码,还提供了可重复的训练数据、完整的数据处理流程、严谨的实验消融结果以及详细的训练细节,为科学研究...
它是一个顶级代码大语言模型(LLM),提供了1.5B和8B两个版本的模型。OpenCoder的模型结构与Llama 3.1非常相似,性能上可以媲美Qwen 2.5 Coder 7B、Yi Coder 9B以及StarCoder 2 15B等模型。与大多数先前的工作不同,OpenCoder不仅发布了模型权重和推理代码,还公开了训练数据、数据处理流程、实验消融结果和详细的训练协议,...
简介:在人工智能领域,大型语言模型(LLM)尤其在代码生成等任务中展现出巨大潜力。然而,高质量、可复现的开源代码LLM仍稀缺。为此,多领域专家团队推出了OpenCoder,一个顶级开源代码LLM。它不仅性能卓越,还提供了完整的数据处理流程和训练协议,确保研究的可复现性。OpenCoder的开放性为研究社区提供了从数据准备到模型训练的...