V-MoE 一共是来自5种尺寸的 ViT 模型:ViT-S(mall), ViT-B(ase), ViT-L(arge) 和 ViTH(uge),具体如下图2所示。 图2:密集的 ViT 和稀疏的 V-MoE 模型的上游、few-shot 和下游任务性能,架构细节和训练成本 有3个主要设计决策会影响模型的成本: MoE 层的数量: 本文尝试了两种:每一层都使用 MoE,...