如表 3 所示,预训练阶段,我们选用 Evol-Instruct-GPT4-Turbo-143K 和 OpenChat[3]组成纯文本数据,ALLaVA-Caption-4V 和 ShareGPT4V[4]组成对齐数据;视觉语言指令微调阶段,除了文本数据,我们用 ALLaVA-Instruct-4V 和 llava_instruct_657K[5]组成指令数据。 我们推出两个模型:ALLaVA-3B 和 ALLaVA-3B-Longer...
All datasets can be foundhere. The structure of naming is shown below: ALLaVA-4V ├── ALLaVA-Caption-4V │ ├── ALLaVA-Caption-LAION-4V │ └── ALLaVA-Caption-VFLAN-4V ├── ALLaVA-Instruct-4V │ ├── ALLaVA-Instruct-LAION-4V │ └── ALLaVA-Instruct-VFLAN-4V ├─...
如表 3 所示,预训练阶段,我们选用 Evol-Instruct-GPT4-Turbo-143K 和 OpenChat[3]组成纯文本数据,ALLaVA-Caption-4V 和 ShareGPT4V[4]组成对齐数据;视觉语言指令微调阶段,除了文本数据,我们用 ALLaVA-Instruct-4V 和 llava_instruct_657K[5]组成指令数据。 我们推出两个模型:ALLaVA-3B 和 ALLaVA-3B-Longer...
如表 3 所示,预训练阶段,我们选用 Evol-Instruct-GPT4-Turbo-143K 和 OpenChat[3]组成纯文本数据,ALLaVA-Caption-4V 和 ShareGPT4V[4]组成对齐数据;视觉语言指令微调阶段,除了文本数据,我们用 ALLaVA-Instruct-4V 和 llava_instruct_657K[5]组成指令数据。 我们推出两个模型:ALLaVA-3B 和 ALLaVA-3B-Longer...