也就是拿上下文的词对当前词做语义增强。 当前词为query,上下文的词为key,值为value,计算Query向量与各个Key...:Masked LM和Next Sentence Prediction。前者是随机遮住句子中的一部分词,根据剩余词汇预测这些词是什么;后者是给定两个句子,预测这两个句子是不是上下句。 相当于从两个角度来让模型...