Top-k sampling [1]的思路非常简单,就是在采样之前缩减采样空间,只保留概率最高的k个词,然后重新进行归一化得到新的概率分布。沿用[3]的记法,采样空间为 Vt(k)=argmaxS⊆V∑v∈S(p(v|y<t)) ,最终采样用的概率分布可以表示为: p(y_t|\textbf{y}_{<t}) = \left \{ \begin{al