ELMO采用了典型的两阶段过程,第一个阶段是利用语言模型进行预训练;第二个阶段是在做下游任务时,从预训练网络中提取对应单词的网络各层的Word Embedding作为新特征补充到下游任务中。上图展示的是其预训练过程,它的网络结构采用了双层双向LSTM,目前语言模型训练的任务目标是根据单词W_i的上下文去正确预测单词W_i,W_...
数据简化DataSimp导读:介绍自然语言处理中的预训练技术发展史:从WordEmbedding、ELMO、GPT到Bert模型。附新浪微博AILab张俊林博士简历。读完《自然语言处理NLP技术里程碑、知识结构、研究方向和机构导师》和本文《自然语言处理中的预训练技术发展史:从WordEmbedding到Bert模型》,再读《谷歌AI论文BERT双向编码器表征模型:机器...