经历了5000步的训练,从最开始频繁预测 the 变成最能够比较好预测句子的后半段内容。因为future mask的原因,GPT是没办法很好的预测句子的前半段的, 因为前半段的信息太少了。所以我们才说GPT是单向语言模型。 而模型的架构我们会使用到在Transformer中的Encoder代码,因为他们是通用的。 只是我们需要将Encoder中的Mask...
百度试题 结果1 题目用于产生词嵌入的单向语言模型是哪个 A. bert B. elmo C. gpt D. bilstm 相关知识点: 试题来源: 解析 C 反馈 收藏