封神榜大模型团队基于在多模态领域积累的先进技术,首次在多模态大模型上加入图像标记、目标检测、语义分割模块,推出了多模态大模型Ziya-Visual-Lyrics。评测结果显示,Ziya-Visual-Lyrics在跟开源多模态大模型的对比中取得多个零样本任务SOTA,模型效果亮眼。 欢迎大家点击下方链接下载,也可通过魔搭创空间、HuggingfaceSpace...
Ziya-Visual-Lyrics引入了视觉细化器,并采用了细粒度的两阶段视觉语言训练框架Lyrics,有效地促进了模型在处理视觉对象时的语义感知能力。该模型的视觉细化器包含图像标记、目标检测和语义分割模块,显著提升了模型对图像细节的理解能力。此外,Ziya-Visual-Lyrics还采用了多尺度Querying Transformer (MQ-Former) 结构来对齐...