有人戏称:Word2Vec + ELMo + GPT = BERT,不过也并无道理,BERT吸收了这些模型的优点:“完形填空”的学习模式迫使模型更多依赖上下文信息预测单词,赋予了模型一定的纠错能力;Transformer模型相比LSTM模型没有长度限制问题,具备更好的能力捕获上下文信息特征;相比单向训练模式,双向训练模型捕获上下文信息会更加全面; 和GPT的...
word2vec: nlp中最早的预训练模型,缺点是无法解决一词多义问题.ELMO:优点: 根据上下文动态调整word embedding,因为可以解决一词多义问题;缺点:1、使用LSTM特征抽取方式而不是transformer,2、使用向量拼接方式融合上下文特征融合能力较弱。GPT:.优点:使用transformer提取特征缺点:使用单项的语言模型,即单向transformer.BERT:...
经过elmo训练,不仅能够得到word embedding, 又能学习到一个双层双向的神经网络。 第二阶段,下游任务使用:将一个新的句子作为elmo预训练网络的输入,这样该句子在elmo网络中能获得三个embedding, 可以将三个embedding加权作为word embedding, 并将此作为下游任务的输入,这被称为“Feature-based Pre-Training"。 GPT GPT...