另外,用了特殊的采样方法,对于这种小模型,效果比 top-p top-k 好。方法是: 对于段落开头:几乎完全按照输出的概率分布采样,不需要截断(只设置个 top-p 0.995 意思一下)。这样可以加强行文的变化,观感好很多。 对于其它位置:先找到最高概率的字的概率 p,然后移除所有概率小于 0.02*p^2 的字。 说说这个设计的...