1.已知词汇的词汇表 (构建词汇表的)模型及改进方法: 1.词袋模型(bag-of-words model) 2. n-gram model (n 代表组在一起单词的数量) 比如有,2-gram(bigram) model、3-gram (trigram) model ,1-gram model 其实就相当于 bag-of-words 模型。 2.已知单词存在的一种度量 为已知单词进行评分的方法: 1....
常见的如bigram模型(N=2)和trigram模型(N=3)。事实上,由于模型复杂度和预测精度的限制,我们很少会考虑N>3的模型。 我们可以用最大似然法去求解Ngram模型的参数——等价于去统计每个Ngram的条件词频。 BiGram:p(S)=∏Tt=1p(wt|wt−1)p(S)=∏t=1Tp(wt|wt−1) TriGram:p(S)=∏Tt=1p(wt|wt−...
4.2.2 中文 以50 万个单词的词库为例,2 个字母的切分粒度的单词冲突为 1192(冲突的定义:至少有两个单词的 letter-bigram 向量完全相同),而 3 个字母的单词冲突降为 22 效果很好,且转化后的向量空间 3 万维不是很大,综合考虑选择 3 个字母的切分粒度。 4.3表示层 DSSM 的表示层采用 BOW(Bag of words)的...