多模态性能齐平 GPT-4o,推理能力不降反增 作为视觉模型,Align-DS-V在各种 VQA(Visual Question Answering,视觉问答)和推理任务中展示出了强大的性能,达到了与GPT-4o齐平的水准。 此外研究团队还发现,将DeepSeek-R1-Distill-lalama-8b扩展到多模态后,甚至将模型的原始文本模式推理能力方面再提升了一个台阶。 Ali...
Align-DS-V的地域价值对齐示范 为验证全模态推理大模型在垂域应用的强大能力,研发团队对Align-DS-V面向进行香港地区价值观的本地化对齐,令Align-DS-V适应粤语/英语/普通话混合语言输入,深度整合港铁动态、台风预警及八达通缴费等香港本土生活场景。 在被图文询问到哪一款维他奶(香港地区的热门饮品)更加减脂时,Align...
Align-DS-V的地域价值对齐示范 为验证全模态推理大模型在垂域应用的强大能力,研发团队对Align-DS-V面向进行香港地区价值观的本地化对齐,令Align-DS-V适应粤语/英语/普通话混合语言输入,深度整合港铁动态、台风预警及八达通缴费等香港本土生活场景。 在被图文询问到哪一款维他奶(香港地区的热门饮品)更加减脂时,Align...
训练成功后,研究人员将多模态版本的DeepSeek-R1系列模型命名为Align-DS-V。 以下是Align-DS-V在不同视觉理解表现评测集上的表现(对比GPT-4o)。 可以看到,Align-DS-V在部分评测集(如llava-bench-coco)上的表现超过了GPT-4o。 除此之外,更重要的是团队还发现了模态穿透对于模型文本模态推理能力的提升效果。 ...
作者| 许丽思编辑 | 漠影机器人前瞻2月13日报道,最近,北京大学联合香港科技大学团队基于自研全模态框架Align-Anything,将纯文本模态的Deepseek R1系列模型拓展至了图文模态,推出多模态版DeepSeek-R1,即Align-DS-V,它在部分视觉理解表现评测集上超越GPT-4o。联合研究
[2025.02.28]🤗🤗🤗 We open-sourced🤗Align-DS-V, an experimental vision-language model based onDeepSeek-R1-Distill-Llama-8B, which enhances reasoning by incorporating additional modalities into the language model. The model has already surpassed18,000+downloads!
trainer = SuperviseTrainer(cfgs=cfgs, ds_cfgs=ds_cfgs) trainer.train() trainer.save() if __name__ == '__main__': sys.exit(main()) 第二步,同时【微调投影层Projector和大语言模型】,激发语言模型多模态推理能力。 多模态版DeepSeek-R1:评测表现超GPT-4o,模态穿透反哺文本推理能力!北大港科大...
Align-DS-V (8B)GPT-4o MathVista27.030.4 MathVision63.862.2 LLaVA-Bench-COCO105.3104.9 A-OKVQA83.787.9 Math Tasks In addition, we were pleasantly surprised to find that Align-DS-R1, which extends theDeepSeek-R1-Distill-Llama-8Bto the visual modality, also achieved a significant improvement...
机器人前瞻2月13日报道,最近,北京大学联合香港科技大学团队基于自研全模态框架Align-Anything,将纯文本模态的Deepseek R1系列模型拓展至了图文模态,推出多模态版DeepSeek-R1,即Align-DS-V,它在部分视觉理解表现评测集上超越GPT-4o。 联合研究团队中的北京大学对齐团队的指导老师为北京大学人工智能研究院助理教授杨耀东...
* **[2025.02.28]** 🤗🤗🤗 We open-sourced [🤗Align-DS-V](https://huggingface.co/PKU-Alignment/Align-DS-V), an experimental vision-language model based on [DeepSeek-R1-Distill-Llama-8B](https://github.com/deepseek-ai/DeepSeek-R1), which enhances reasoning by incorporating additio...