我们的初步实验发现,直接用多帧作为输入在视频数据集上微调预训练的图像-语言模型会导致性能饱和甚至下降。进一步的调查表明,这主要是由于学习到的高范数视觉特征的偏差。受这一发现的启发,我们提出了一种简单但有效的池化策略,以沿时间维度平滑特征分布,从而减少极端特征的支配影响。新模型被称为池化 LLaVA,简称 PLL...
为了更好地符合人类的审美,来自北京大学和快手的研究团队提出了一个统一的多模态图像美学评估(UNIAA)框架,包括一个名为 UNIAA-LLaVA 的多模态大型语言模型(MLLM)和一个名为 UNIAA-Bench 的综合基准。他们为 IAA 选择了具有视觉感知和语言能力的 MLLMs,并建立了一种将现有数据集转换为统一的高质量视觉指令微调...