最大概率分词中,认为每个词的概率都是独立的,但是有一部分词,其切分却与前一个词密切相关,特别是中文分词中更为明显,英文中就是如上一篇文章中的“tositdown”的例子。 这样就可以使用2元模型,就是如一个分割形式"ab cde f"的概率, 如果按照1-gram计算:P(ab cde f) = P(ab)*P(cde)*P(f) 如果按照...
N元语言模型(N-gram语言模型) 设[Math Processing Error]z为字串,[Math Processing Error]w为划分的词串,[Math Processing Error]s是一种划分。该分词方法是以[Math Processing Error]p(s)最大的分词结果作为结果。 由于每个词的概率都十分小,对于较长的字串,得到的每个结果的概率可能十分接近于0,计算机精度不...
该分词方法是以p ( s ) p(s)p(s)最大的分词结果作为结果。 由于每个词的概率都十分小,对于较长的字串,得到的每个结果的概率可能十分接近于0,计算机精度不够,会影响概率的比较,可通过比较概率的负对数来比较大小。 这种方法可发现所有的切分歧义,它的成功率很大程度取决于统计语言模型的精度和决策算法。 概率...
自然语言的分词方法之N-gram语言模型 ⾃然语⾔的分词⽅法之N-gram语⾔模型 基于理解的分词⽅法 其基本思想是在分词的同时进⾏句法、语义的分析,以此来处理歧义问题。⽬前这种⽅法还处于实验状态 基于统计的分词⽅法 基本思路 构建语⾔模型,对句⼦进⾏单词划分,划分结果运⽤统计⽅法计算...