四、模型结构 BERT:包含12层或24层的Transformer编码器结构,每一层都有多头注意力机制和前馈神经网络。这种结构使得BERT能够捕捉到文本的双向信息,从而在处理自然语言任务时表现出色。 GPT:包含12层或24层的Transformer解码器结构,但每一层只有多头注意力机制(在自注意子层中,它对所有已知的信息进行遮掩,但处理方式与...
1. Bert结构和预训练任务2. Bert和GPT区别3. 为什么GPT是decoder-only4. GPT的训练过程.4️⃣ 深度学习1. transformer结构描述2. 注意力机制描述3. 为什么用多头注意力机制4. attention的复杂度及为什么用位置编码5. attention中为什么➗k的维度开根号6. 残差的作用7. BN和LN区别8. transformer中用BN可以...
8. 解释ChatGPT的“零样本”和“少样本”学习的概念9. 你了解大型语言模型中的某些分词技术?10. 如何评估大语言模型(LLMs)的性能?11. 如何缓解LLM复读机问题?12. 简述下Transformer基本原理13. 为什么Transformer的架构需要多头注意力机制?14. 为什么Transformer需要位置编码?15. transformer中,同一个词可以有不同...