GPT3实际上一次只生成一个token的输出(现在我们假设一个token是一个词)。请注意:这是对GPT-3工作原理的描述,而不是对它的新颖之处的讨论(主要是规模大得可笑)。其架构是基于的 transformer 解码器模型, 参见这篇论文(https://arxiv.org/pdf/1801.10198.pdf)。GPT3 极其巨大。它将从训练中学习到的...