CBOW(Continous Bag of words)和 Skip-gram模型,一个是根据上下文预测中心target词,一个是根据中心词预测上下文,在输出层是一个全链接层,输出最有可能出现的词, 语料库里面的词,往往很多10^6 成千上万个,输出每个词的概率,这计算量也太大了,所以有没有更好的训练方法,Hierarchical Softmax以及 负样本训练 就...