关于GPT(以及 Bert 等一系列语言模型),我最近有了一些更清晰的想法。这些语言模型用最本质的一句话来概括就是:它们只是在寻找一种【作为纯粹符号的语言】上的结构关系。比如 Bert 通过 masking 的方法,学到了在人类对“苹果”这个符号的运用中,“这个苹果真_”,这个空格大概率是甜——因为 Bert 阅读了非常多的...