特里斯丹:多模态LLM系列调研 - 4 | Fuyu、MiniGPT4-v2、Qwen-vl、CogVLM mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration 论文:https://arxiv.org/abs/2311.04257 代码:https://github.com/X-PLUG/mPLUG-Owl/tree/main/mPLUG-Owl2(基于llava开发) 作者认为之前的...
基于此,达摩院的研究者提出了 mPLUG-2,其通过模块化的⽹络结构设计来平衡多模态之间的协作和纠缠问题,mPLUG-2 在 30 + 多 / 单模态任务,取得同等数据量和模型规模 SOTA 或者 Comparable 效果,在 VideoQA 和VideoCaption 上超越 Flamingo、VideoCoca、GITv2 等超⼤模型取得绝对SOTA。此外,mPLUG-Owl 是阿...
基于此,达摩院的研究者提出了 mPLUG-2,其通过模块化的⽹络结构设计来平衡多模态之间的协作和纠缠问题,mPLUG-2 在 30 + 多 / 单模态任务,取得同等数据量和模型规模 SOTA 或者 Comparable 效果,在 VideoQA 和 VideoCaption 上超越 Flamingo、VideoCoca、GITv2 等超⼤模型取得绝对SOTA。此外,mPLUG-Owl 是阿...
基于此,达摩院的研究者提出了 mPLUG-2,其通过模块化的⽹络结构设计来平衡多模态之间的协作和纠缠问题,mPLUG-2 在 30 + 多 / 单模态任务,取得同等数据量和模型规模 SOTA 或者 Comparable 效果,在 VideoQA 和 VideoCaption 上超越 Flamingo、VideoCoca、GITv2 等超⼤模型取得绝对SOTA。此外,mPLUG-Owl 是阿...
mPLUG-Owl ViT-L (0.3B) LLaMA (7B) 967.34 46.6 - 34.0 58.9 InstructBLIP ViT-g (1.3B) Vicuna (7B) 1212.82 36.0 26.2 53.4 55.8 LLaMA-Adapter-v2 ViT-L (0.3B) LLaMA (7B) 1328.40 39.5 31.4 32.7 58.1 Otter ViT-L (0.3B) LLaMA (7B) 1292.26 48.3 24.6 32.9 47.2 Qwen-VL-Chat ViT-G...
@@ -269,6 +273,8 @@ class MplugOwlVisualAbstractorConfig(PretrainedConfig): def __init__( self, add_v2t_pos_emb=False, use_cls_token=True, num_learnable_queries=64, hidden_size=1024, num_hidden_layers=6, @@ -282,6 +288,8 @@ def __init__( **kwargs, ): super().__init...
基于此,达摩院的研究者提出了 mPLUG-2,其通过模块化的⽹络结构设计来平衡多模态之间的协作和纠缠问题,mPLUG-2 在 30 + 多 / 单模态任务,取得同等数据量和模型规模 SOTA 或者 Comparable 效果,在 VideoQA 和VideoCaption 上超越 Flamingo、VideoCoca、GITv2 等超⼤模型取得绝对SOTA。此外,mPLUG-Owl 是阿...
基于此,达摩院的研究者提出了 mPLUG-2,其通过模块化的⽹络结构设计来平衡多模态之间的协作和纠缠问题,mPLUG-2 在 30 + 多 / 单模态任务,取得同等数据量和模型规模 SOTA 或者 Comparable 效果,在 VideoQA 和 VideoCaption 上超越 Flamingo、VideoCoca、GITv2 等超⼤模型取得绝对SOTA。此外,mPLUG-Owl 是阿...
基于此,达摩院的研究者提出了 mPLUG-2,其通过模块化的⽹络结构设计来平衡多模态之间的协作和纠缠问题,mPLUG-2 在 30 + 多 / 单模态任务,取得同等数据量和模型规模 SOTA 或者 Comparable 效果,在 VideoQA 和 VideoCaption 上超越 Flamingo、VideoCoca、GITv2 等超⼤模型取得绝对 SOTA。此外,mPLUG-Owl 是...
本次实验使用的是 mPLUG 模型,旨在对翻译成中文的图像描述 MS COCO Caption 数据集进行 finetune 的图像描述下游任务。mPLUG 模型是一个统一理解和生成的多模态基础模型,提出了基于 skip-connections 的高效跨模态融合框架。在公开的论文中,mPLUG 在 MS COCO Caption 数据集上达到了 SOTA(State-of-the-Art) 水...