本综述还配套建立了一个GitHub仓库,将调查中提到的论文按相同的分类进行整理,网址为:https://github.com/lijiannuist/Efficient-Multimodal-LLMs-Survey,作者团队将积极维护并及时纳入新研究。 模型架构 图3:高效MLLMs的模型架构 按照标准的MLLM框架,高效MLLMs分为三个主要模块: 视觉编码器g,负责接收和处理视觉输入;...
多模态大模型综述(一):A Survey on Multimodal Large Language Models--介绍与模型架构 凡人向之礼 14 人赞同了该文章 摘要:近年来,以GPT-4V为代表的多模态大型语言模型(MLLM)利用强大的大型语言模型(LLMs)作为大脑,成为一个新兴的研究热点。MLLM令人惊讶的突发能力,如基于图像的故事写作和无ocr的数学推理,在...
A Survey on Benchmarks of Multimodal Large Language Models - Timothyxxx/Evaluation-Multimodal-LLMs-Survey
Efficient-Multimodal-LLMs-Survey Efficient Multimodal Large Language Models: A Survey[arXiv] Yizhang Jin12, Jian Li1, Yexin Liu3, Tianjun Gu4, Kai Wu1, Zhengkai Jiang1, Muyang He3, Bo Zhao3, Xin Tan4, Zhenye Gan1, Yabiao Wang1, Chengjie Wang1, Lizhuang Ma2 ...
综述一:A Survey on Multimodal Large Language Models 一、多模态LLM的组成部分 (1)模态编码器 (2)语言模型 (3)连接器 二、预训练 三、SFT微调 四、RLHF对齐训练 (1)使用常见的PPO (2)使用DPO直接偏好对齐 (3)常见用于对齐的偏序数据集 综述二:MM-LLMs: Recent Advances in MultiModal Large Language Mod...
(LAVR). To conclude the paper, we discuss existing challenges and point out promising research directions. In light of the fact that the era of MLLM has only just begun, we will keep updating this survey and hope it can inspire more research. An associated GitHub link collecting the ...
A Survey of Multimodal Large Language Model from A Data-centric PerspectiveO网页链接 这篇论文从以数据为中心的视角全面调查了多模态大型语言模型(MLLM)。人类通过视觉、嗅觉、听觉和触觉等多种感官感知世界,与此类似,多模态大型语言模型通过集成和处理来自文本、视觉、音频、视频和3D环境等多个模态的数据,增强了...
Our key argument is that evaluation should be regarded as a crucial discipline to support the development of MLLMs better. For more details, please visit our GitHub repository: https://github.com/swordlidev/Evaluation-Multimodal-LLMs-Survey. ...
Code Edit beccabai/Data-centric_multimodal_LLM official 79 Tasks Edit Language Modeling Language Modelling Large Language Model Multimodal Large Language Model Survey Datasets Edit Add Datasets introduced or used in this paper Results from the Paper Edit Submit results from this paper to get...
一个完整的MLLM经历三个阶段的训练,即预训练、指令微调和对齐微调。训练的每个阶段都需要不同类型的数据,并实现不同的目标。在本节中,我们将讨论训练目标,以及每个训练阶段的数据收集和特征。 3.1 预训练 训练详情 作为第一个训练阶段,预训练的主要目的是整合不同的模态,学习多模态的世界知识。预训练阶段通常需要...