对于 phi3-mini 模型,phi-3-mini,这是一个在33万亿标记上训练的语言模型,其整体性能在学术基准测试和内部测试中与 Mixtral 8x7B 和 GPT-3.5 等模型相媲美(例如,phi-3-mini 在 MMLU 上达到了69%,在 MT-bench 上达到了8.38),尽管它足够小可以在手机上部署。创新完全在于用于训练的数据集,这是 phi-2 ...
最具性能且无内容审查限制的Liberated-Qwen1.5模型正式开源。这个模型使用了一个新的数据集—SystemChat,解决了传统开放式大型语言模型不遵循系统提示导致在实际场景中无法使用的问题。该数据集由7000个聊天会话构成,能让模型更容易遵守系统提示并且更困难被破解。 Liberated-Qwen1.5模型在MT-bench测试中表现出色,在首个...
智源在MTBench、AlpacaEval2、Arena-Hard三个主流榜单上评测了Infinity-Instruct 7M+Gen对模型对话能力的增益,其中,AlpacaEval2和Arena-Hard与真实人类评价榜单Chatbot Arena有很高的一致率,MTBench则评测模型的多轮对话能力。 如下左图所示,InfInstruct-7M-Gen-Mistral-7B,InfInstruct-7M-Gen-Llama3.1-8B,InfInstruct-...
实验表明,SPPO 仅使用了来自 UltraFeedback 数据集的 60k 个提示(不含回复),并且没有进行任何提示增强,通过利用仅有 0.4B 个参数的预训练偏好模型 PairRM,可以从微调 Mistral-7B-Instruct-v0.2 中获得一个模型,该模型在 AlpacaEval 2.0 上与 GPT-4-Turbo 相比达到了长度控制胜率 SOTA(28.53%)。它在 MT-B...