作为一个多任务学习框架,MFTCoder面临着任务间数据量不平衡、难易不一和收敛速度不同的重大挑战。为了解决这些挑战,MFTCoder采用了一组专门设计的损失函数,以缓解这些不平衡问题。 首先,为了解决数据量不平衡的问题,MFTCoder会确保在单个epoch内所有任务的每一个样本都被使用且只使用一次。为了避免模型偏向具有较多数据...
第三,我们也将MFTCoder支持的模型增加了Mistral, Mixtral-8x7b,Deepseek-coder, Chatglm3等新的主流开源模型。我们用新版MFTCoder训练的CodeFuse-Mixtral-8x7B, 是通用自然语言大模型经过多代码任务微调后代码能力领先的。而我们用MFTCoder训练的CodeFuse-DeepSeek-33B更是可以在BigCode Leaderboard上以41.62%的胜率...
(多模型适配)鉴于不同的大型模型具有不同的优势和能力,为支持按需选择适合的模型底座进行微调以实现最佳性能,MFTCoder已适配了若干主流的开源LLMs,包括LLama,LLama 2,CodeLLama,Qwen,Baichuan 1/2,ChatGLM 2,CodeGeeX 2,GPT-NEOX,CodeFuse-13B,StarCoder,AntLLM等。同时也在持续更新和适配新的模型。 02 指令数...
目前MFTCoder迭代到v0.4.2, 新增了对QLoRA + Deepspeed ZeRO3/FSDP的支持,可以使用更少的GPU,对更大模型(比如70B, 110B等)进行多任务微调 MFTCoder已适配支持了更多的主流开源LLMs,如Qwen2, Qwen2-moe, Gemma, Starcoder2, Mixtral、Mistral、Deepseek、 Llama、CodeLlama、Qwen、CodeGeeX2、StarCoder、Baich...
MFTCoder技术细节的论文已经放出到Arxiv:https://arxiv.org/pdf/2311.02303.pdf;对应的代码也已经开源到github:https://github.com/codefuse-ai/MFTCoder。本文旨在对MFTCoder论文做一个详细技术解读。 一、引言 ChatGPT和GPT-4的横空出世使得大模型(LLMs)研发井喷式爆发,这也同时进一步引燃了将大模型应用于代码...
MFTCoder论文提出了一种名为MFT(Multi-Task Learning for Code)的方法。该方法通过联合训练多个与代码相关的下游任务,旨在提高代码大模型的泛化能力。具体来说,MFT方法采用了以下步骤: 选择与代码相关的下游任务。这些任务可以是代码补全、代码分类、代码生成等。 针对每个任务单独进行微调。这可以通过标准的微调技术实现...
MFTCoder技术细节的论文已经放出到Arxiv:https://arxiv.org/pdf/2311.02303.pdf;对应的代码也已经开源到github:https://github.com/codefuse-ai/MFTCoder。本文旨在对MFTCoder论文做一个详细技术解读。 一、引言 ChatGPT和GPT-4的横空出世使得大模型(LLMs)研发井喷式爆发,这也同时进一步引燃了将大模型应用于代码...
一、MFTCoder技术原理 MFTCoder是一个轻量、高效的多任务微调框架,旨在解决传统微调方法无法充分利用不同任务之间内在联系的问题。它通过引入多任务学习(Multi-Task Learning, MTL)策略,将多个相关任务联合训练,从而实现知识迁移和共享,提高模型的整体性能。多任务学习不仅可以提高模型的泛化能力,还可以降低模型过拟合的风...
近期CodeFuse新开源模型在Big Code Models Leaderboard代码大模型榜单上荣登榜首,成为代码大模型领域的新焦点。这一成就得益于多任务高效微调框架MFTCoder的强大支持,以及以DeepSeek-Coder-33b模型为基础进行微调的精细策略。 Huggingface模型下载:https://huggingface.co/codefuse-ai/ ...
MFTCoder技术细节的论文已经被 KDD 2024 (ADS) 接收:https://arxiv.org/pdf/2311.02303.pdf; 新升级代码也已经开源到GitHub:https://github.com/codefuse-ai/MFTCoder/tree/main/mftcoder_accelerate 2.v0.4.2新特性Hightlights 首先,新版本已经适配到transformers v4.40.2,因此也支持了众多新的开源模型, 比如Qw...