BertSelfAttention是通过extended_attention_mask/attention_mask和embedding_output/hidden_states计算得到context_layer,这个context_layer的shape为[batch_size, bert_seq_length, all_head_size = num_attention_heads*attention_head_size],它就是batch_size个句子每个token的词向量,这个词向量是综合了上下文得到的,注...
Transformer模型的开源代码详解,深入解析BertEncoder和BertLayer,以及Self-Attention机制。首先,BertLayer是BERT模型的核心模块,它通过多层递归处理输入,生成句向量和词向量。模型结构分为三个部分:BertAttention、BertIntermediate和BertOutput。1.1 BertAttention的核心功能是Self-Attention,它利用注意力机制捕...