这项研究的成果为大型语言模型的多模态指令响应能力提供了新的方法和思路,具有重要的实际应用潜力。 项目网址:https://github.com/OpenGVLab/LLaMA-Adapter 论文网址:https://arxiv.org/abs/2309.03905 (举报)
论文:https://arxiv.org/abs/2305.05665(Meta AI) 代码:https://github.com/facebookresearch/ImageBind(仅开源推理代码) 亮点:使用七种不同的模态进行互相检索。模型使用冻结的CLIP 预训练参数,并通过在各种模态上训练encoder 对齐CLIP embedding 。 Image Binding:训练时使用图像与另一种模态组合成一对,来学习 j...
论文地址:https://dl.fbaipublicfiles.com/imagebind/imagebind_final.pdf GitHub 地址:https:///facebookresearch/ImageBind 具体而言,ImageBind 利用网络规模(图像、文本)匹配数据,并将其与自然存在的配对数据(视频、音频、图像、深度)相结合,以学习单个联合嵌入空间。这样做使得 ImageBind 隐式地将文本嵌入与其他...