引入openbmb/RLHF-V-Dataset数据集,旨在开发一个大规模、高质量的多样化任务多模态反馈数据集 旭_1994 6枚 CC BY-NC 多样化任务多模态反馈 0 5 2025-03-31 详情 相关项目 评论(0) 创建项目 数据集介绍 原始链接:https://hf-mirror.com/datasets/openbmb/RLHF-V-Dataset Dat
Feature request / 功能建议 类似这个链接一样,https://github.com/vlf-silkie/VLFeedback/tree/main,我尝试注册cogvlm2在模型库中,但遇到了许多问题,所以能否开发一个cogvlm2自己的RLHF训练框架出来,集成PPO,DPO,ORPO,KTO等常见的强化学习算法和多模态强化学习数据集
SPPO:基于自我博弈的大模型对齐方法 | 传统的人类反馈强化学习(RLHF)方法依赖于 Bradley-Terry 模型等参数模型,无法很好地捕捉人类偏好的不稳定性和不理性。最新进展表明,直接使用偏好概率可以更准确地反映人类偏好,从而实现更灵活、更准确的语言模型对齐。