微调视觉模型在许多下游视觉任务中已被广泛证明具有很好的性能。随着预训练视觉基础模型的惊人发展,视觉微调跳出了标准的操作方式,即对整个预训练模型或仅对全连接层进行微调(目前绝大多数网络的操作是这样的,比如先在ImageNet数据集进行训练获得参数,然后去除全连接层迁移到下游任务比如目标检测与分割等进行微调)。相反,...
为追溯和总结多模态大型语言模型(MLLMs)的最新进展,中国科学技术大学与腾讯联合发布了 MLLMs 综述文章。 他们首先介绍了 MLLMs 的表述并描述了其相关概念;然后讨论了多模态指令微调(M-IT)、多模态上下文学习(M-ICL)、多模态思维链(M-CoT)等关键技术和应用;最后,他们讨论了现有的挑战并指出了有希望的研究方向。
扩散模型(diffusion models)是最新的深度生成方法,在计算机视觉、自然语言处理、时间序列等任务上都有出色的表现。在这篇全新的扩散模型综述中,我们(加州大学 & Google Research的Ming-Hsuan Yang、北京大学崔斌实验室 @大仲马 以及CMU、UCLA @叶小飞 、蒙特利尔Mila研究院)等研究者首次对现有的扩散生成模型(diffusion mo...