为了检验 OpenCoder 的代码生成能力,研究团队在多个基准上将它与其他流行的开源模型(如 StarCoder2 、Qwen2.5-Coder 等)进行了比较,包括 HumanEval、MBPP、BigCodeBench 和 LiveCodeBench。结果表明,OpenCoder 在这些评估中达到了开源模型的一流水准。此外,在多语言代码生成评估基准
OpenCoder构建了RefineCode数据集用于预训练,RefineCode主要包含两部分数据:raw code和code-related web data。raw code主要来自github(截至2023年11月),并从The Stack V2数据集中补充非github数据;而code-related web data则从web语料库抽取。 RefineCode和The Stack数据集的对比如下,RefineCode包含了更多的code-related...
OpenCoder 同样从 Common Crawl 数据集中收集高质量代码相关数据,通过三轮 FastText 训练、召回、手工网页标注,最终成功获取了 330G 代码相关网页数据。 OpenCoder 采用了 WSD(Warmup, Steady, Decay)学习率调度策略,以在不同训练阶段中确保模型的稳定性与高效性。在训练初期,模型通过 2000 步的 warmup 阶段逐步提升...
性能表现接近专有模型,科学家推出开源代码大模型OpenCoder与构建指南 DeepTech深科技 已认证机构号 9 人赞同了该文章 自2021 年,OpenAI 推出了 CodeX 以来,大语言模型(Large Language Model,LLM)的发展已经给代码生成工作带来了巨大的变革。作为 LLM 的一个重要分支,代码大模型(Code LLMs)不仅可以自动生成...
研究团队推出了 OpenCoder,这是一系列能力达到第一梯队的 CodeLLM,不仅在性能上可与领先模型媲美,还为研究社区提供了全方面的构建细节。 本文的共同第一作者是墨尔本大学计算机科学硕士黄思明和复旦大学计算机科学硕士程天豪。OpenCoder 项目是二人在 INF 实习期间与 M-A-P 开源项目合作的成果,由 INF 主导,M-A-P ...
OpenCoder 模型在 HumanEval、MBPP 两主流模型评估任务上显著超过了现有开源模型,验证了其数据处理流程与合成数据的有效性。 为了检验 OpenCoder 的代码生成能力,研究团队在多个基准上将它与其他流行的开源模型(如 StarCoder2 、Qwen2.5-Coder 等)进行了比较,包括 HumanEval、MBPP、BigCodeBench 和 LiveCodeBench。结果...
OpenCoder作为一款开创性的开源代码大型语言模型(CodeLLM),以其在代码生成方面的卓越性能脱颖而出。该项目的重要性在于它致力于缩小开源社区与专有行业之间的鸿沟,为代码生成研究提供了一个协作平台。OpenCoder的独特之处在于其庞大的数据集RefineCode,涵盖了607种编程语言,拥有令人印象深刻的9600亿个标记。该模型创新的...
简介:在人工智能领域,大型语言模型(LLM)尤其在代码生成等任务中展现出巨大潜力。然而,高质量、可复现的开源代码LLM仍稀缺。为此,多领域专家团队推出了OpenCoder,一个顶级开源代码LLM。它不仅性能卓越,还提供了完整的数据处理流程和训练协议,确保研究的可复现性。OpenCoder的开放性为研究社区提供了从数据准备到模型训练的...
OpenCoder的模型结构与Llama 3.1非常相似,性能上可以媲美Qwen 2.5 Coder 7B、Yi Coder 9B以及StarCoder 2 15B等模型。与大多数先前的工作不同,OpenCoder不仅发布了模型权重和推理代码,还公开了训练数据、数据处理流程、实验消融结果和详细的训练协议,极大地促进了开放科学研究。
在确保原始代码数据的质量方面,OpenCoder开发了一整套代码特定的数据处理管道,包括预处理、去重、转换、过滤和数据抽样等多个模块。具体的步骤如下: 预处理:排除超过8MB的文件,以避免将非文本文件纳入数据集;同时,限制选择编程语言相关的文件类型,最终保留607种编程语言的文件类型。