测试效果3:在减少多模态大模型因过泛化产生的 “幻觉”上,RLHF-V 的表现超过 GPT-4V。 长回复问题中,RLHF-V 与 GPT-4V 在“过泛化”现象上的对比,其中红色部分为“幻觉”,深红色部分为“过泛化”导致的场景相关的“幻觉” 当被提出“对给定图片进行详细描述”时,GPT-4V 的回答产生了与图片中厨房场景高度...
同时,RLHF-V在保持模型输出信息量的情况下,能够在幻觉评测中超越现有的开源多模态大模型,抵抗“过泛化”的效果甚至超越GPT-4V。 值得一提的是,RLHF-V框架的提出也为解决MLLM的虚幻问题提供了新的思路。通过细粒度的人类反馈和DDPO算法的结合,RLHF-V不仅提高了模型的可信度,还为MLLM的进一步发展奠定了坚实的基...
在五个基准测试上的综合实验表明,RLHF-V在数据和计算效率方面具有良好的性能,大幅提升了MLLM的可信度。使用1.4k条偏好数据,RLHF-V显著降低了基础MLLM的对象幻觉率达34.8%,优于使用10k条偏好数据训练的同期模型LLaVA-RLHF [48]。此外,RLHF-V在防止因过度泛化引起的幻觉方面,展现出比强大的GPT-4V [37]更好的...
RLHF-V/RLAIF-VPublic NotificationsYou must be signed in to change notification settings Fork10 Star266 Code Issues5 Actions Projects Security Insights Commit Update README.md Browse filesBrowse the repository at this point in the history
-[2024.11.26]🚀 我们现在支持使用[LoRA](https://github.com/RLHF-V/RLAIF-V/blob/main/README_zh.md#%E8%AE%AD%E7%BB%83)训练了! -[2024.05.28]📃 RLAIF-V 论文可以在[arXiv](https://arxiv.org/abs/2405.17220)访问了,欢迎进一步了解!
来自OpenLLMAI、字节跳动、网易、阿里的研究团队提出了是一个可实现 RLHF 高效扩展的开源框架——OpenRLHF。现有的 RLHF 框架将四个模型放在同一个 GPU 上,与此不同,OpenRLHF 利用 Ray、vLLM 和 DeepSpeed 重新设计了超过 70B 参数的模型调度,提高了资源利用率并采用了多种训练方法。OpenRLHF 与 Hugging Fac...
in RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from Fine-grained Correctional Human Feedback Click to add a brief description of the dataset (Markdown and LaTeX enabled). Provide: a high-level explanation of the dataset characteristics explain motivations and summary of its content ...
Remarkably, using 1.4k annotated data samples, RLHF-V significantly reduces the hallucination rate of the base MLLM by 34.8%, outperforming the concurrent LLaVA-RLHF trained on 10k annotated data. The final model achieves state-of-the-art performance in trustworthiness among open-source MLLMs, ...
data. The final model achieves state-of-the-art performance in trustworthiness among open-source MLLMs, and shows better robustness than GPT-4V in preventing hallucinations aroused from over-generalization. We open-source our code, model, and data at https://github.com/RLHF-V/RLHF-V. ...
RLHF已成功应用于本平台, 能够生成类似人类的文本并执行各种语言任务。RLHF使模型能够在大量文本数据语料库上进行训练,并在复杂的语言任务(如语言理解和生成)上取得令人印象深刻的结果。 RLHF的成功取决于人类提供的反馈的质量,根据任务和环境,反馈的质量可能是主观的和可变的。因此,开发有效且可扩展的收集和处理反馈...