详解为什么现在的 LLMs 大都是 Decoder-only 的架构 首先概述几种主要的架构: Encoder-only:以谷歌的BERT为代表。 Encoder-Decoder:以谷歌的T5、Meta 的BART为代表。 基于自回归空白填充的通用语言模型:清华大学的GLM。 XLNet:XLNet在那时是一种通用的自回归预训练方法。通过最大化所有可能的因式分解排列的对数似然,...