本综述还配套建立了一个GitHub仓库,将调查中提到的论文按相同的分类进行整理,网址为:https://github.com/lijiannuist/Efficient-Multimodal-LLMs-Survey,作者团队将积极维护并及时纳入新研究。 模型架构 图3:高效MLLMs的模型架构 按照标准的MLLM框架,高效MLLMs分为三个主要模块: 视觉编码器g,负责接收和处理视觉输入;...
从形式上讲,多模态指令样本可以用三元组形式表示,即(i,M,R),其中i、M、R分别表示指令、多模态输入和grounded真值响应。MLLM根据指令和多模式输入预测答案: \mathcal A=f(\mathcal I,\mathcal M;\theta) 这里,A表示预测的答案,θ是模型的参数。训练目标通常是用于训练LLM的原始自回归目标,在此基础上鼓励ML...
A Survey on Benchmarks of Multimodal Large Language Models - Timothyxxx/Evaluation-Multimodal-LLMs-Survey
A Survey on Benchmarks of Multimodal Large Language Models - Evaluation-Multimodal-LLMs-Survey/README.md at main · Timothyxxx/Evaluation-Multimodal-LLMs-Survey
综述一:A Survey on Multimodal Large Language Models 一、多模态LLM的组成部分 (1)模态编码器 (2)语言模型 (3)连接器 二、预训练 三、SFT微调 四、RLHF对齐训练 (1)使用常见的PPO (2)使用DPO直接偏好对齐 (3)常见用于对齐的偏序数据集 综述二:MM-LLMs: Recent Advances in MultiModal Large Language Mod...
大模型领域各个方向的Survey | 阅读综述(survey)是了解一个新领域的最佳途径之一,但目前缺乏一个将多领域综述进行总结的readinglist,对于入门各种新领域很不友好。因此这里我收集了一些(泛)LLM各个领域的综述,既包括LLM/LLM Acceleration/LLM Efficient Inference等与纯语言模型有关的领域,也包含了最近比较火的Multimoda...
Within this context, this paper systematically reviews the evolutionary process of KGC methods, ranging from traditional representation learning approaches to those based on pre-training models, large language models (LLMs), and multimodal techniques. Specifically, we outline the application and efficacy ...
Within this context, this paper systematically reviews the evolutionary process of KGC methods, ranging from traditional representation learning approaches to those based on pre-training models, large language models (LLMs), and multimodal techniques. Specifically, we outline the application and efficacy ...
具身智能 Embodied AI:许多工作利用LLMs进行任务规划,特别是LLMs的互联网级别的领域知识和新兴的few-shot具象能力,使执行复杂的任务规划和推理成为可能。最近的机器人研究也利用LLMs进行任务规划,通过将自然语言指令分解为一系列子任务并以自然语言或Python代码的形式表示,然后使用低级控制器执行这些子任务。此外,还有...
大型多模态代理-LMAs-综述 | 一篇由LLM驱动的多模态代理的综述文章-Large Multimodal Agents: A Survey。 - 详细介绍了LMAs的四个核心要素,包括感知、规划、行动和记忆。 - 将现有研究分类为四种类型:类型I-闭源LLMs作为无长期记忆的规划者;类型II-微调的LLMs作为无长期记忆的规划者;类型III-具有间接长期记忆的...