目录 收起 Greedy Decoding Beam Search Label Smoothing Greedy Decoding 对于Decoder部分,输入为编码后的token,经过Decoder Block后,再经过一个Linear Layer,使维度变成与Vocab Size一样,再经过一个Softmax,得到下一个token的概率,预测值即为概率最大的token。 总的来说就是每次都输出概率最大的词。 Beam Sea...