最强开源模型的微调版本来了 | Nous-Hermes 2是Nous Research公司新推出的一款旗舰级LLM,它在RLHF的基础上进行了训练,并且在一系列流行基准测试中击败了Mixtral Instruct。这款模型有两种版本可供选择:SFT-only和SFT+DPO,并且还提供了一个qlora适配器。
项目支持全量参数训练、LoRA、QLoRA高效训练,支持预训练、SFT、DPO。 如果你的训练资源有限,我们极力推荐使用QLoRA进行指令微调,因为我们在Open LLM Leaderboard上验证了该方法的有效性,并 +1 发布于 2024-05-17 11:46・IP 属地广东 写下你的评论... ...
我们还推出了支持 1M 上下文长度(约 200 万中文字符)的GLM-4-9B-Chat-1M模型和基于 GLM-4-9B 的多模态模型 GLM-4V-9B。GLM-4V-9B具备 1120 * 1120 高分辨率下的中英双语多轮对话能力,在中英文综合能力、感知推理、文字识别、图表理解等多方面多模态评测中,GLM-4V-9B 表现出超越 GPT-4-turbo-2024-04-0...