这里注意一点,BERT并非是简单的将ELMo的LSTM换成了Transformer,而是将双向训练做到了更加结合的程度,具体解释引用某个评论区的回复如下。 BERT相对于ELMo并非简单的把LSTM替换成了Transformer 这样我们就有了W2V、ELMo、GPT以及BERT等多种Embedding方式,这些方法也称为预训练模型,即现成的训练好的语料——向量关系。在执...