BERT选择Transformer编码器作为其双向架构。在Transformer编码器中常见是,位置嵌入被加入到输入序列的每个位置。然而,与原始的Transformer编码器不同,BERT使用可学习的位置嵌入。上图表明BERT输入序列的嵌入是词元嵌入、片段嵌入和位置嵌入的和。 预训练任务1:带掩码的语言模型 1)transformer的编码器是双向的,标准语言模型...
但可以认为伯努利分布实现引入了更多随机性(mask长度不一)