MaTVLM:Mamba-Transformer结构的视觉语言模型 | 论文链接:链接Github:链接结合知识蒸馏和Mamba-Transformer结构的视觉语言模型,腾讯的推理模型也是这种混合Mamba和Transformer的结构,什么都可以尝试混一下,就像2021、2022大家对Vision Transfomer中结合卷积层的模型改进,以及对MLP-Mixer的各种设计一样,有意思。