《GPT4RoI: Instruction Tuning Large Language Model On Region-Of-Interest》是港大、上海AI Lab和阿里在今年十月份挂在arxiv上的一篇文章,其思考和PVIT差不多,认为目前的端到端的多模态大语言模型训练的时候只有图像级别的信息(比如LLaVA),因此对图片细粒度的理解能力有所局限,因此在训练多模态LLM的时候,添加了...
GitHub链接:https://github.com/jshilong/GPT4RoI)论文链接:https://arxiv.org/abs/2307.03601.pdf
GitHub链接:https://github.com/jshilong/GPT4RoI) 论文链接:https://arxiv.org/abs/2307.03601.pdf
GPT4RoI:面向区域级图像理解的端到端多模态大模型 ChatGPT和 GPT4 等大模型的出现让人们看到了通用人工智能的曙光。无论是能接触到海量数据和算力的大公司,还是在开源数据集和预训练模型上做小型实验的个体,这一次技术浪潮都给我们带来了无限可能。 本文将支持自然语言的交互方式的图片级多模态系统向前推进了一步,...