模型规模扩展会导致训练成本显著增加,计算资源限制成为大规模密集模型训练瓶颈。为解决这个问题,一种基于稀疏MoE层的深度学习模型架构被提出,将大模型拆分成多个小模型(专家),每轮迭代根据样本激活部分专家用于计算,节省计算资源,并引入可训练门机制确保稀疏性。MoE将模型某一层扩展为多个具有相同结构的...