Cohere提出自改进鲁棒偏好优化 | 目前,在线和离线 RLHF 方法(如 PPO 和 DPO)在使人工智能与人类偏好保持一致方面都非常成功。然而,它们的最优解高度依赖于任务,即对分配外(OOD)任务非鲁棒性。为此,来自 Cohere 的研究团队提出了一种自改进实用的、数学上有原则性的离线鲁棒偏好优化框架 —— SRPO,对任务的变化...
得益于超过15万亿token的数据训练、优化的tokenizer以及新的信任与安全工具(如Llama Guard 2、Code Shield和CyberSec Eval 2),Llama 3在安全性和性能上均有显著提升。模型通过PPO和DPO从偏好排序中学习,增强了推理和编码能力。目前推出的8B和70B参数版本已集成至Meta AI助手并在GitHub上开源,未来还将发布多模态和多...