Qwen-VL-Chat 和 GPT-4V 在 MMMU 上的差异为 13.3% ,而 BLIP2-FLAN-T5-XXL 和 GPT-4V 在 MMMU 上的差异为 21.9% 。令人惊讶的是,Yi-VL-34B 甚至将 CMMMU 上开源双语 LMM 和 GPT-4V 之间的差距缩小到了 7.5% ,这意味着在中文环境下,开源双语 LMM 与 GPT-4V 相当,这在开源社区中是一个有希望...
CMMMU 包含了约 12000 道源自大学考试、测验和教科书的中文多模态问题。其中,GPT-4V 在该测试集上的准确率为 43.7%, Yi-VL-34B 以 36.5% 的准确率紧随其后,在现有的开源多模态模型中处于领先位置。 来源:https://cmmmu-benchmark.github.io/ 那么,Yi-VL 模型在图文对话等多元场景中的表现如何? 我们先看...
为此,来自香港科技大学、滑铁卢大学、零一万物的研究团队及其合作者们,提出了一个新的中文大规模多学科多模态理解基准——CMMMU,用于评估 LMMs 在中文语境下完成要求大学水平学科知识和审慎推理的任务的能力。CMMMU 严格遵循 MMMU 的标注和分析模式,包括从大学考试、测验和教科书中手动收集的 12000 个多模态问题,涵盖...
@article{zhang2024cmmmu, title={CMMMU: A Chinese Massive Multi-discipline Multimodal Understanding Benchmark}, author={Ge, Zhang and Xinrun, Du and Bei, Chen and Yiming, Liang and Tongxu, Luo and Tianyu, Zheng and Kang, Zhu and Yuyang, Cheng and Chunpu, Xu and Shuyue, Guo and ...
CMMMU 🌐 Homepage | 🤗 Paper | 📖 arXiv | 🤗 Dataset | GitHub This repo contains the evaluation code for the paper "CMMMU: A Chinese Massive Multi-discipline Multimodal Understanding Benchmark" Introduction CMMMU includes 12k manually collected multimodal questions from college exams, quiz...
更适合中文LMM体质的基准CMMMU来了:超过30个细分学科,12K专家级题目 https://news.miracleplus.com/share_link/16960 近期,随着多模态大模型(LMM) 的能力不断进步,评估 LMM 性能的需求也日益增长。与此同时,在中文环境下评估 LMM 的高级知识和推理能力的重要性更加突出。在这一背景下,M-A-P 开源社区、港科大...
近日,零一万物宣布开源其多模态大模型Yi-VL,该模型在MMMU和CMMMU两大权威榜单上均取得了领先地位,引起了广泛关注。 Yi-VL多模态大模型采用了先进的深度学习技术,通过大量的数据训练,使得模型能够同时处理多种类型的数据。其核心技术特点包括: 多模态数据处理能力:Yi-VL能够同时处理文本、图像、音频等多种类型的数据...
(1)体积的单位:m、dm(L)>cm(mL)、mmu (2)换算关系:1n?=103dm;1dm3=___3;lcm3=103mm;1L___3;1mL___m3。 (3)测量工具:或量杯、刻度尺 (4)测量体积的方法 1对形状规则的固体:可用刻度尺测出其尺寸,求出其体积。 2对形状不规则的固体: 使用量筒或量杯采用 “溢水法”测体积。若固体不沉...
#鹅鸭杀[超话]# E6CMMMU素质大学生马拉德庄园 全是素质~ 除了顺麦没什么规矩开心就好~
第1节长度和时间的测量1.长度单位换算:(1)1km=m;(2)1m=dm=cm=mmumnmo2.测量时间的工具有等。时间的基本单位是,常用单位还有3.测量误差与错误:误差是指和之间的差异。误差是避免的,为了减小误差,可以采取多次测量取的方法。错误是由于不遵守仪器使用的规则、读数时粗心造成的,是不该发生的,是避免的。 ...