论文1: Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models 论文地址: 研究背景 研究问题 研究方法 实验过程 实验结果 研究结论 实际应用性 局限性 论文2:InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning 研究背景 研究问题 研究方法 实验过程 研究结论...
Visual ChatGPT (论文1)通过整合 ChatGPT 与视觉基础模型,并借助 Prompt Manager 实现了复杂视觉任务处理,但存在依赖其他模型、提示工程复杂等局限; InstructBLIP (论文2) 经系统的指令调整研究,利用指令感知视觉特征提取和数据集平衡策略,在视觉 - 语言任务上取得良好效果,不过受原始 LLMs 及数据集影响; PaLM - ...