[2024/01/05] 作为提出了Code Evol-Instruct方法以及代码大模型指令微调最老牌的工作之一的wizardcoder迎来了更新,在EvalPlus排行榜上取得了开源大模型的第一。发布于 2024-01-05 07:42・日本 深度学习(Deep Learning) 人工智能 机器学习 赞同3添加评论 分享喜欢
73.2 pass@1on HumanEval-Plus,78.9 pass@1on MBPP, and66.9 pass@1on MBPP-Plus.WizardCoder-33B-V1.1outperformsChatGPT 3.5,Gemini Pro, andDeepSeek-Coder-33B-instructon HumanEval and HumanEval-Plus pass@1.WizardCoder-33B-V1.1is comparable withChatGPT 3.5, and surpassesGemini Proon MBPP and ...
结果显示,在使用 LMSYS ChatBot Arena 作为参考基准时,WizardArena 展现了良好的排名一致性,然而 MT-Bench 显示出较大的波动。 此外,WizardArena 多样性和困难测试集之间的性能也存在显著差异:Vicuna-33B 和 Qwen1.5-32B-Chat 在多样性任务中更为有效,而 Tulu-2-DPO-70B 和 Nous-Hermes-2-Mixt-DPO 在困难任务...
deepspeed train_wizardcoder.py \ --model_name_or_path "bigcode/starcoder" \ --data_path "/your/path/to/code_instruction_data.json" \ --output_dir "/your/path/to/ckpt" \ --num_train_epochs 3 \ --model_max_length 2048 \ --per_device_train_batch_size 16 \ --per_device_eval_...
值得一提的是,根据公开资料显示,Arena Learning 的核心作者均是 Wizard 系列模型原班团队,包括:WizardLM 一作 Can Xu 和 Qingfeng,WizardMath 一作 Haipeng Luo,WizardCoder 二作 Pu Zhao。 Haipeng Luo,目前是清华大学在读博士生,研究方向为大语言模型和多模态,导师唐彦嵩老师。
值得一提的是,根据公开资料显示,Arena Learning 的核心作者均是 Wizard 系列模型原班团队,包括:WizardLM 一作 Can Xu 和 Qingfeng,WizardMath 一作 Haipeng Luo,WizardCoder 二作 Pu Zhao。 Haipeng Luo,目前是清华大学在读博士生,研究方向为大语言模型和多模态,导师唐彦嵩老师。