接着介绍主要中文分词方法,比如最短路径分词、n元语法分词、由字构词分词、循环神经网络分词、Transformer分词; 然后介绍当前主要使用的分词工具,比如jieba、HanLP、FoolNLTK; 最后抛出个人认为垂直领域如何中文分词及发展趋势。 文章目录如下: 一、中文分词原理 1、中文分词 2、词、词组、句子 3、语言模型 4、中文分词...
中文分词原理、方法与工具 中文分词是处理中文文本的第一步,其核心是为句子中的词与词之间加上边界标记,以帮助计算机更好地理解文本。实现这一目标需要理解词、词组、句子以及语言模型等基本概念。语言模型包括短语结构语法(PSG)、n元语法模型(n-gram)、神经网络语言模型(NNLM)与Masked Language Mod...