北京大学和中山大学等机构研究者提出了统一的视觉语言大模型 ——Chat-UniVi。通过构建图片和视频统一表征,该框架使得一个 LLM 能够在图片和视频的混合数据下训练,并同时完成图片和视频理解任务。更重要的是,该框架极大降低了视觉语言模型训练和推理的开销,使得在三天以内即可训练出具有 130 亿参数的通用视觉语言大...
Chat-UniVi 框架具有两个引人注目的优点:首先,其统一的图片和视频建模方法允许在图片和视频混合数据集上进行训练,而无需任何修改即可直接应用于图片和视频任务。其次,多尺度表征有助于对图片和视频的全面理解,使 Chat-UniVi 能够适应各种任务,包括使用高层次特征进行语义理解,使用低层次特征生成详细描述。 Chat-UniVi...
北京大学和中山大学等机构研究者提出了统一的视觉语言大模型 ——Chat-UniVi。通过构建图片和视频统一表征,该框架使得一个 LLM 能够在图片和视频的混合数据下训练,并同时完成图片和视频理解任务。更重要的是,该框架极大降低了视觉语言模型训练和推理的开销,使得在三天以内即可训练出具有 130 亿参数的通用视觉语言大模型...
Chat-UniVi 框架具有两个引人注目的优点:首先,其统一的图片和视频建模方法允许在图片和视频混合数据集上进行训练,而无需任何修改即可直接应用于图片和视频任务。其次,多尺度表征有助于对图片和视频的全面理解,使 Chat-UniVi 能够适应各种任务,包括使用高层次特征进行语义理解,使用低层次特征生成详细描述。 Chat-UniVi...
北京大学和中山大学等机构研究者提出了统一的视觉语言大模型 ——Chat-UniVi。通过构建图片和视频统一表征,该框架使得一个 LLM 能够在图片和视频的混合数据下训练,并同时完成图片和视频理解任务。更重要的是,该框架极大降低了视觉语言模型训练和推理的开销,使得在三天以内即可训练出具有 130 亿参数的通用视觉语言大模型...
具体而言,团队按照提出的新框架,训练了一个新的VLM:Chat-UniVi。 Chat-UniVi能在混合图片和视频数据的情况下进行训练,并同时处理图片任务和视频理解任务。 以此为基础,Chat-UniVi在图片及视频上的17个基准上,都表现得还不错。 现在,项目已经在GitHub和抱抱脸上开源。
Demo 聚焦技术细节 Chat-UniVi的核心技术在于其统一的视觉表征方法。研究人员采用最近邻的密度峰聚类算法,逐步对视觉token进行分组和合并,以优化图片和视频的表示。此外,模型还引入了一个多尺度表征,上层特征表示高级语义概念,而下层特征关注视觉细节。这种多尺度表征的引入,使得Chat-UniVi能够适应各种任务,从语义理解到...
Chat-UniVi的创新之处在于,它通过一组动态视觉token来统一表示图片和视频,有效降低了视觉token的数量,同时保持了强大的表达能力。这种方法特别适合处理可变长度的视频,为多模态语言模型提供了新的应用前景。 Demo 聚焦技术细节Chat-UniVi的核心技术在于其统一的视觉表征方法。研究人员采用最近邻的密度峰聚类算法,逐步对...
main ChatUniVi data figures results scripts .gitignore DATA.md LICENSE README.md TRAIN_AND_VALIDATE.md TRAIN_AND_VALIDATE_V1.5.md VISUALIZATION.md main_demo_13B.py main_demo_7B.py pretrain.sh pyproject.toml visualization.py Data preparation ...
Extensive experimental results demonstrate that Chat-UniVi, as a unified model, consistently outperforms even existing methods exclusively designed for either images or videos. ⚡ Demo Please change the model path on line 15 of the main_demo.py first. Then run the demo: # For Chat-UniVi-7B...