论文源码中的MoE实现如下: gate_activations=slim.fully_connected(model_input,vocab_size*(num_mixtures+1))expert_activations=slim.fully_connected(model_input,vocab_size*num_mixtures)gating_distribution=tf.nn.softmax(tf.reshape(gate_activations,[-1,num_mixtures+1]))expert_distribution=tf.nn.sigmoid(t...
说实话,我对这个训练流程还不是很理解,主要在于Distillation #1这一步中model是怎么训练的。前面2个框中的操作是为了得到soft label,同时也是对原始label的去噪(论文中假设了数据集中的label含有噪音)。YouTube 8M短视频分类比赛的数据是分为frame-level data和video-level data的,那么在Distillation #1这一步中是怎...