这里的 GPT 就是 Decoder-only 的代表作; UniLM 则是跟 GPT 相似的 Decoder 架构,但它是混合的注意力模式; T5 则是 Encoder-Decoder 架构的代表作,主要是 Google 比较感兴趣。 Google 在 T5[2]和 UL2[3]两篇论文中做了较为充分的对比实验,结果均体现出了 Encoder-Decoder 架构相比于 Decoder-only 的优...
这里的 GPT 就是 Decoder-only 的代表作; UniLM 则是跟 GPT 相似的 Decoder 架构,但它是混合的注意力模式; T5 则是 Encoder-Decoder 架构的代表作,主要是 Google 比较感兴趣。 Google 在 T5[2]和 UL2[3]两篇论文中做了较为充分的对比实验,结果均体现出了 Encoder-Decoder 架构相比于 Decoder-only 的优...
这里的 GPT 就是 Decoder-only 的代表作; UniLM 则是跟 GPT 相似的 Decoder 架构,但它是混合的注意力模式; T5 则是 Encoder-Decoder 架构的代表作,主要是 Google 比较感兴趣。 Google 在 T5[2]和 UL2[3]两篇论文中做了较为充分的对比实验,结果均体现出了 Encoder-Decoder 架构相比于 Decoder-only 的优...