如果小任务之间的关系是完全串联的(即做完一个才能做第二个),那么这一模型又被称为 hierarchical mixture of experts。在实际的网络中,我们通常用 sparse gate network 来关联一众 expert networks,其具体形式如下:Sparse gate network G 的输入是 token xs ,输出的是这 N 个expert networks 的分配权重,即一个...