• 过程:使用OFA模型为图像生成文本描述,引入RAM++模型提取对象检测标签获取更细致语义信息,利用微调的LLaMA3模型结合多种信息生成描述。 3. RWKV - CLIP模型: • 架构:采用双塔架构,融合Transformer的有效并行训练和RNN的高效推理,由多个空间混合和通道混合模块堆叠而成。