因为decoder-only结构模型在没有任何微调数据的情况下,zero-shot的表现能力最好;而encoder decoder则需要在一定量的标注数据上做multitask-finetuning才能够激发最佳性能。 目前的Large LM的训练范式还是在大规模语料上做自监督学习,很显然zero-shot性能更好的 decoder-only架构才能更好的利用这些无标注的数据。 大模型...