•高度模块化:对不同算法类型的抽象化和精心设计的API,用户能够为不同的任务修改和定制代码,以及定制化模型与数据集注册等高级扩展用法; •支持跨任意模态模型的微调:包含对如 LLaMA3.2、LLaVA、Chameleon、Qwen2-VL、Qwen2-Audio、Diffusion等跨越多种模态生成与理解的大模型的微调能力; •支持不同的对齐方法:...
机器人前瞻2月13日报道,最近,北京大学联合香港科技大学团队基于自研全模态框架Align-Anything,将纯文本模态的Deepseek R1系列模型拓展至了图文模态,推出多模态版DeepSeek-R1,即Align-DS-V,它在部分视觉理解表现评测集上超越GPT-4o。 联合研究团队中的北京大学对齐团队的指导老师为北京大学人工智能研究院助理教授杨耀东,...
Align-DS-V (8B)GPT-4o MathVista27.030.4 MathVision63.862.2 LLaVA-Bench-COCO105.3104.9 A-OKVQA83.787.9 Math Tasks In addition, we were pleasantly surprised to find that Align-DS-R1, which extends theDeepSeek-R1-Distill-Llama-8Bto the visual modality, also achieved a significant improvement...
多模态性能齐平GPT-4o,推理能力不降反增 作为视觉模型,Align-DS-V在各种 VQA(Visual Question Answering,视觉问答)和推理任务中展示出了强大的性能,达到了与GPT-4o齐平的水准。 此外研究团队还发现,将DeepSeek-R1-Distill-lalama-8b扩展到多模态后,甚至将模型的原始文本模式推理能力方面再提升了一个台阶。 Align...