代码链接:https://github.com/Xwin-LM/Xwin-LM 研究团队首先仅使用 7.5K 数据,对 LLaMA-2-7B 模型指令微调,进而测评模型在GSM8K和MATH的表现。实验结果表明,当对每一个测试集中的问题从 256 个生成的答案中选择最佳答案时,测试准确率可分别高达 97.7% 和 72.0%,这一结果说明即使是通用预训练下 7B 量级的...
from transformers import AutoTokenizer, AutoModelForCausalLMmodel = AutoModelForCausalLM.from_pretrained("Xwin-LM/Xwin-LM-7B-V0.1")tokenizer = AutoTokenizer.from_pretrained("Xwin-LM/Xwin-LM-7B-V0.1")( prompt := "A chat between a curious user and an artificial intelligence assistant....
可以看到,Xwin-LM的70B模型完全霸榜,成为AlpacaEval指标上的性能评估的第一,并首次打败了GPT-4,对GPT-4的胜率达到了60.61%。 Xwin-LM其他规模的模型,如Xwin-LM-13B-V0.1、Xwin-LM-7B-V0.1在性能上也远超相同规模的其他模型。 Xwin-LM-7B-V0.1甚至超过了比它规模更大的Llama 2-13B-Chat。 2. 案例比...
这项研究发布在 arXiv 上,题为《Common 7B Language Models Already Possess Strong Math Capabilities》。论文链接:https://arxiv.org/pdf/2403.04706.pdf代码链接:https://github.com/Xwin-LM/Xwin-LM 研究团队首先仅使用 7.5K 数据,对 LLaMA-2-7B 模型指令微调,进而测评模型在 GSM8K 和 MATH 的表...
其胜率高达91.76%,傲然挺立于所有13B型号的前列。还有Xwin-LM-7B-V0.1,在AlpacaEval上的胜率为87.82%,位列所有7B型号的鳌头。这些成就都是RLHF的重要贡献,彰显出Xwin-LM项目的无限潜力和蓬勃生机。我们将持续推动Xwin-LM项目的更新迭代,为探索大型语言模型的未来发展开启新篇章。#长假读书清单# ...
代码链接:https://github.com/Xwin-LM/Xwin-LM 研究团队首先仅使用 7.5K 数据,对 LLaMA-2-7B 模型指令微调,进而测评模型在 GSM8K 和 MATH 的表现。实验结果表明,当对每一个测试集中的问题从 256 个生成的答案中选择最佳答案时,...
不仅如此,Xwin-LM的13B版本(Xwin-LM-13B-V0.1)也表现出色,在AlpacaEval中取得了令人瞩目的91.76%胜率,成为所有13B模型中的冠军。 还有Xwin-LM的7B版本(Xwin-LM-7B-V0.1),在AlpacaEval上取得了87.82%的胜率,从而在所有7B模型中夺得桂冠。 Xwin-LM是基于Llama 2模型进行微调的,旨在开发和开源大语言模型的对齐...
代码链接:https://github.com/Xwin-LM/Xwin-LM 研究团队首先仅使用 7.5K 数据,对 LLaMA-2-7B 模型指令微调,进而测评模型在 GSM8K 和 MATH 的表现。实验结果表明,当对每一个测试集中的问题从 256 个生成的答案中选择最佳答案时,测试准确率可分别高达 97.7% 和 72.0%,这一结果说明即使是通用预训练下 7B ...
代码链接:https://github.com/Xwin-LM/Xwin-LM 研究团队首先仅使用 7.5K 数据,对 LLaMA-2-7B 模型指令微调,进而测评模型在 GSM8K 和 MATH 的表现。实验结果表明,当对每一个测试集中的问题从 256 个生成的答案中选择最佳答案时,测试准确率可分别高达 97.7% 和 72.0%,这一结果说明即使是通用预训练下 7B ...
结果显示,Xwin-LM的70B模型在性能上全面领先,甚至打败了GPT-4。此外,Xwin-LM的其他规模模型,如Xwin-LM-13B-V0.1和Xwin-LM-7B-V0.1,也在性能上远超相同规模的其他模型。甚至Xwin-LM-7B-V0.1还超过了比它规模更大的Llama 2-13B-Chat。总的来说,Xwin-LM在AlpacaEval上的表现令人瞩目,不仅在70B模型上...