21、抽象视觉刺激。点阵图啥的也能看懂,说明是真的理解了图片 22、【重要】发现关联部件和对象。像拼图一样把画面组合起来行程一张有意义的画面。老实说,这是人脑的臭毛病,总想把相关的事联系起来或者为他们找个理由,gpt做得很出色 ; 23、智力测试题。不多说了,其实是其他内容的综合表现 ; 24、【重要】读取...
21、抽象视觉刺激。点阵图啥的也能看懂,说明是真的理解了图片 22、【重要】发现关联部件和对象。像拼图一样把画面组合起来行程一张有意义的画面。老实说,这是人脑的臭毛病,总想把相关的事联系起来或者为他们找个理由,gpt做得很出色 ; 23、智力测试题。不多说了,其实是其他内容的综合表现 ; 24、【重要】读取...
这次讨论的是大型多模态模型(LMMs),用给大语言模型(LLMs)添加多感官的方式,来实现更强的通用性。GPT-4v,v就是Vision,视觉的意思。 为啥从视觉开始呢?因为视觉是人类的主导感官,因此LLMs从扩展视觉开始 论文主要研究了开放世界图像理解、视觉描述、多模态知识、场景文本、视觉指针(这个特别有意思,请往下看)、时间...
21、抽象视觉刺激。点阵图啥的也能看懂,说明是真的理解了图片 22、【重要】发现关联部件和对象。像拼图一样把画面组合起来行程一张有意义的画面。老实说,这是人脑的臭毛病,总想把相关的事联系起来或者为他们找个理由,gpt做得很出色 ; 23、智力测试题。不多说了,其实是其他内容的综合表现 ; 24、【重要】读取...