2.1 词汇表征(Word Representation) 上周我们学习了RNN、GRU单元和LSTM单元。本周你会看到我们如何把这些知识用到NLP上,用于自然语言处理,深度学习已经给这一领域带来了革命性的变革。其中一个很关键的概念就是词嵌入(word embeddings),这是语言表示的一种方式,可以让算法自动的理解一些类似的词,比如男人对女人,比如...
If 𝑘 is not small enough, we can keep the top-k singular values (like 300) to obtain a least-squares approximation toM𝑀. In this way, we can reduce word representation dimension. The 𝑋 in the diagram is a term-term matrix, and each row of 𝑊 is a 𝑘-dimensional representa...
Embedding在数学上表示一个函数 f: X -> Y,对于word embedding,就是将单词word映射到另外一个空间,可以认为是单词嵌入,就是把X所属空间的单词映射为到Y空间的多维向量,那么该多维向量相当于嵌入到Y所属空间中。 word embedding,就是找到一个函数,生成在一个新的空间上的表达,实际上就是word representation。 为...
模型采用双向多层lstm,不同层的隐向量代表了不同层次的词表征(word representation),其应用示意如下: 当预训练好的ELMo模型整体迁移用于下游任务的时,对于下游任务输入序列中的某个词xk=hk0,可得其ELMo各层隐向量hk1、hk2...,越往上层的隐向量整合的上下文语义信息更多。然后将各层向量输出到下游任务用于输入,当...
Text representation是NLP中的基础技术,text classification是NLP的重要应用。Fast text是Facebook于2016年开源的一个word embedding和text classification工具,典型的应用场景是“带监督的文本分类问题”,提供简单高效的文本分类和表征学习的方法,性能堪比深度学习且速度更快。与基于神经网络的分类算法相比有以下优点:1、...
Distributed Representation 不过,Ngram模型仍有其局限性。首先,由于参数空间的爆炸式增长,它无法处理更长程的context(N>3)。其次,它没有考虑词与词之间内在的联系性。例如,考虑"the cat is walking in the bedroom"这句话。如果我们在训练语料中看到了很多类似“the dog is walking in the bedroom”或是“the ...
boolean representation: 即词典的长度为向量长度,有词的记为1; boolean representation: 即词典的长度为向量长度,有词的记录在句子中出现的数量n; 距离计算 有向量那么就需要知道如何计算两个句子的相似度, 有以下方法: 欧式距离 余弦相似度 jaccard tf-idf: ...
通过统计一个事先指定大小的窗口内的word共现次数,以word周边的共现词的次数做为当前word的vector。具体来说,我们通过从大量的语料文本中构建一个共现矩阵来定义word representation。 例如,有语料如下: I like deep learning. I like NLP. I enjoy flying. ...
3. Distributed similarity based representation 一个很自然,很直观的方法就是根据某个单词的上下文对该单词的含义进行编码。该方法的核心思想是:A word’s meaning is given by the words that frequently appear close-by,由J.R.Firth在1957年提出。
在学习自然语言处理(NLP,Natural Language Processing)时,最先遇到的一个概念,可能就是词嵌入(word ...