ELMo着重解决一词多义,相比较于传统的word2vec,仅能表达一种含义(词向量是固定的) ELMo生成的词向量利用了上下文的信息,根据下游任务,能够通过权值来调整词向量以适应不同任务
ELMo解读(论文+PyTorch源码)ELMo解读(论⽂+PyTorch源码)ELMo的概念也是很早就出了,应该是18年初的事情了。但我仍然是后知后觉,居然还是等BERT出来很久之后,才知道有这么个东西。这两天才仔细看了下论⽂和源码,在这⾥做⼀些记录,如果有不详实的地⽅,欢迎指出~⽂章⽬录 前⾔ ⼀. ELMo原理...
1. ELMo整体模型结构 对于ELMo的模型结构,其实论文中并没有给出具体的图(这点对于笔者这种想象力极差的人来说很痛苦),笔者通过整合论文里面的蛛丝马迹以及PyTorch的源码,得出它大概是下面这么个东西(手残党画的丑,勿怪): 假设输入的句子维度为B∗W∗C B * W * CB∗W∗C,这里的 B BB 表示batch_si...