这方面的benchmark包括速度与方向、物体状态变化、时间维度概念理解。eg. VideoNIAH、VTATES 2.长视频理解(Long Video Understanding):难点包括计算复杂度高、内存需求大,以及模型需要保持长时间的时间关联性。eg.Event-Bench、EgoSchema 3.综合感知(Comprehensive Perception):视频理解需要模型具备综合感知能力,即同时理解...
> MuirBench link:MuirBench: A Comprehensive Benchmark for Robust Multi-image Understanding index:MuirBench 我们推出了 MuirBench,这是一个全面的基准测试,专注于评估多模态大语言模型强大的多图像理解能力。MuirBench 包含 12 个不同的多图像任务(如场景理解、排序),涉及 10 种多图像关系(如多视角、时间关系)...
现有benchmark的不足 MME-RealWorld 是规模最大的完全由人类标注的数据集,具有最高的平均分辨率和最具挑战性的任务。 近年来,多模态大语言模型(MLLMs)得到了显著的发展。这些模型的主要设计目标是开发能够通过整合多种模态感官数据全面感知人类查询和环境情况的通用智能体。因此,出现了大量全面的评估基准,用于严格评估...
实验部分,本文对提出的 Cobra 模型和开源的 SOTA VLM 模型在基础 benchmark 上进行了比较,并对比了与同量级基于 Transformer 架构的 VLM 模型的回答速度。图 生成速度和性能对比图 同时,Cobra 也与更多的模型在 VQA-v2,GQA,VizWiz,TextVQA 四个开放 VQA 任务以及 VSR,POPE 两个闭集预测任务,共 6 个 b...
Benchmark Adaptation 基准数据集是高质量数据的丰富来源。因此,大量的工作利用现有的基准数据集来构建指令格式的数据集。以VQA数据集的转换为例,原始样本是输入-输出对,其中输入包括图像和自然语言问题,输出是以图像为条件的问题的文本答案。 这些数据集的输入输出对可以自然地包括指令样本的多模态输入和响应(见§3.1....
Benchmark Adaptation 基准数据集是高质量数据的丰富来源。因此,大量的工作利用现有的基准数据集来构建指令格式的数据集。以VQA数据集的转换为例,原始样本是输入-输出对,其中输入包括图像和自然语言问题,输出是以图像为条件的问题的文本答案。 这些数据集的输入输出对可以自然地包括指令样本的多模态输入和响应(见§3.1....
实验部分,本文对提出的 Cobra 模型和开源的 SOTA VLM 模型在基础 benchmark 上进行了比较,并对比了与同量级基于 Transformer 架构的 VLM 模型的回答速度。 图 生成速度和性能对比图 同时,Cobra 也与更多的模型在 VQA-v2,GQA,VizWiz,TextVQA...
这一结果表明,MLLM 在解决这些问题时,主要依赖于文本线索,而非真正去理解视觉图像本身,并且,在不输入图像的情况下,甚至可以得到更高的评分。鉴于此,我们展示了当前的视觉数学 benchmark 可能不足以全面评估 MLLM 的真正多模态数学推理能力。 2.仅通过 MLLM 回答的最终答案来评估是否公平?大多数现有的多模态 ...
可以看出,在添加了OmniAlign-V-SFT数据集后,MLLM在三个多模态对齐基准上的表现均有大幅提升;并且在多个General VQA Benchmark上均有不同程度的涨点,尤其是在MMVet和MMMU上涨点十分显著;LLaVANext-Qwen2.5-32B甚至在MMVet和MMMU上分别增加了+9.2和+5.5。这有力验证了OmniAlign-V数据集的有效性。
这一结果表明,MLLM 在解决这些问题时,主要依赖于文本线索,而非真正去理解视觉图像本身,并且,在不输入图像的情况下,甚至可以得到更高的评分。鉴于此,我们展示了当前的视觉数学 benchmark 可能不足以全面评估 MLLM 的真正多模态数学推理能力。 仅通过 MLLM 回答的最终答案来评估是否公平?