近日,华中科技大学软件学院白翔教授领衔的 VLRLab 团队发布了多模态大模型 ——“Monkey”。该模型号称能够实现对世界的“观察”,对图片进行深入的问答交流和精确描述。Monkey 模型在 18 个数据集上的实验中表现出色,特别是在图像描述和视觉问答任务方面,超越了众多现有知名的模型如微软的 LLAVA、谷歌的 PALM-E、阿...