我的理解,首先由于任务需要,softmax后必接argmax。argmax无法求导,因此引入重参数化操作求导。此外,由于softmax仍是强者恒强的操作,argmax无法采样到logits较低的sample,为了引入随机性,使得argmax采样到各sample的概率符合原softmax的概率分布,在softmax中加入随机采样的gumbel噪声,使得logits较低的sample也有机会被arg...