一、Decoder-Only架构 1.1 定义与特点 Decoder-Only架构,也被称为生成式架构,其核心在于仅包含解码器部分。这种架构的模型擅长于从输入中生成连续的输出序列,如文本生成、机器翻译等。Decoder-Only架构的代表模型包括GPT系列、LLaMA、OPT和BLOOM等。 1.2 工作原理 Decoder-Only架构通过解码器直接处理输入,并基于先前的输...
由Transformer论文衍生出来的大语言模型,主要有三条技术路线。 Encoder-Only:以谷歌的BERT为代表。 Encoder-Decoder:以Meta的BART、谷歌的T5、清华大学的GLM为代表。 Decoder-Only:以OpenAI的GPT、谷歌的Bard、Meta的LLaMA、DeepMind的Chinchilla、Anthropic的Claude为代表。 从2017年发展到现在,基本可以判定Decoder-Only路线...
一是“仅编码器(encoder-only)”组(上图中的粉色部 分),该类语言模型擅长文本理解, 因为它们允许信息在文本的两个方向上流动。二是“仅解码器(decoder-only)”组(上图中的蓝色部分),该类语言模型擅长文本生成, 因为信息只能从文本的左侧向右侧流动, 以自回归方式 有效生成新词汇。三是“编码器-解码器(encoder...