CS224n笔记(一) skip-gram model 在每一个估算步都取一个词作为中心词汇,尝试去预测它一定范围内上下文的词汇,这个模型会定义一个概率分布:给定一个中心词汇,其他单词在这个词汇上下文出现的概率,作为词汇的向量表示,然后让概率分布最大化。这个模型只有一个概率分布,这个概率分布就是输出,也就是出现在中心词周围的上下文的一个输出,接着我们要定义一个
CS224N学习笔记 绵满 5 人赞同了该文章 传统方式 先探讨一个问题,我们怎么获取一个词语有用的含义? 以前常用的NLP解决方法,使用WordNet,这是一个包含同义词和上位词列表的同义词库 传统NLP中,我们用独热向量作为特征,这导致需要的特征向量维度过大,且由于独热向量都是正交的,所以词与词之间没有关联。
CS224N学习笔记(十六)Coreference Resolution 1.What is Coreference Resolution? Coreference Resolution 共指消解,一种语言中的语法现象,表示句子中多个指示(mention)指代同一个世界中的实体的情况,比如在下面的英文中,红色都指代奥巴马,黄色都指代希拉里,这种现象称为共指(coreference)。 Applications 共指能够影响对...
课程原地址 http://web.stanford.edu/class/cs224n/index.html#scheduleRNN的缺点RNNs的时间复杂度是O(n),不能并行化,不能解决长距离依赖的问题。 用窗口,也不能解决长距离依赖的问题。 self attention q、k、v…
传统的词向量表示方法,如Word2vec、GloVe和fastText,都是通过训练神经网络来学习词向量,但在实际应用中存在一些问题,例如无法处理未知单词和上下文信息。为了解决这些问题,研究者们提出了Contextual Word Representations(CWR)和Pretraining BERT等新的技术。Contextual Word Representations是一种基于神经网络的词向量表示方法...
我们创建两个矩阵,V∈IRn×|V|和U|V|×n.其中n可以使任意大小的,它定义了嵌入空间的大小。V是输入矩阵,当单词wi作为模型的输入时,V的第i列是wi的输入向量,记为vi。同样地,U是输出矩阵,当单词wj作为模型的输出时,U的第j行为单词wi的输出向量,记为uj。注意,我们实际上为每个单词wi学习两个向量(即输入词...
CS224n学习笔记(三) 语言模型 对于一个文本中出现的单词 wiwi 的概率,他更多的依靠的是前 nn 个单词,而不是这句话中前面所有的单词。 P(w1,…,wm)=i=m∏i=1P(wi|w1,…,wi−1)≈i=m∏i=1P(wi|wi−n,…,wi−1)P(w1,…,wm)=∏i=1i=mP(wi|w1,…,wi−1)≈∏i=1i=mP(wi|wi...
深度学习是表征学习的一个分支, 表征学习的理念就是只向电脑提供来自外界的原始信号,无论是视觉还是语言信号,然后电脑自动得出好的中间表征,来很好地去完成任务。从某种意义上来说,就是自己定义特征,和以往人类定义特征类似的方式。 深度学习的真正含义是:得到了多层的习得表征,可以打败其他的学习方法。
在第一节(CS224n学习笔记[1]:词向量从而何来)中,我们讨论了人们对词语的几种表示方法,有WordNet这样的电子词典法,还有one-hot这样的离散表示法,后来我们介绍了Word2Vec词向量这样的低维分布式表示法。实际上,还有另外一派做法。 基于共现矩阵的词向量 ...
深度学习已经漂亮地完成了许多单项任务,但如果我们继续随机初始化模型参数,我们永远也无法得到一个可以完全理解语言的系统。模型就像蒙住眼的狗,在高原上随机游走,头撞南墙。 Richard说他同样不相信独立的无监督学习能够救世(同意),虽然这个问题还存在许多争议。因为语言有许多监督与反馈,要完成的目标也多种多样。