encoder- decoder、encoder-only、decoder-only都是Transformer系列模型,代表模型分别是T5、BERT、GPT,他们的原理可以参考Transformer模型及其变种(BERT、GPT)这个文章,至于为什么大模型倾向于decoder-only,主要有以下几个点: 从任务角度回答: 目前的大模型应该说是生成式大模型,主要是以序列生成为目标和主要场景,这对于BER...