本文属于自然语言处理领域,标题中提到的 mixture of experts (MOE) 是一种在深度学习模型中经常用到的一个技巧,即把整个任务分拆成并列或串联的小任务,然后用不同的 expert network 来训练每一个小任务再将它们最后合在一起。例如在计算机视觉中,我们会用一个 expert network 来做 human detection(检测哪儿有人)...