加入根据自定义分词,不要不在词库的词,升级版本为1.1.4 7年前 README Apache-2.0 结巴分词(java版) jieba-analysis 首先感谢jieba分词原作者fxsjy,没有他的无私贡献,我们也不会结识到结巴 分词,更不会有现在的java版本。 结巴分词的原始版本为python编写,目前该项目在github上的关注量为170, 打星727次(最新的...
jiebaanalysis(结巴分词)是一款针对中文分词的Java开源库。它基于Python版本的jieba分词进行了改进和优化,提供了高效、准确的中文分词功能。 jiebaanalysis的特点之一是采用了基于词频的字典分割算法,能够快速而准确地将中文文本分割成词语。它内置了大规模的中文词典,并支持自定义词典的添加。这使得jiebaanalysis适用于各种...
使用LZ的程序在默认不加载user.dict时文本中的“鲜芋仙”会被分成“鲜芋”和“仙”,然后我在user.dict里面加入了一行“鲜芋仙 3”,然后再程序中load了进来。从console里面可以看到已经加载了自定义词库,但是分词结果并没有变化,请问是自定义词库写的有问题吗?谢谢。
- conf 目录有整理的搜狗细胞词库 - 因为性能原因,最新的快照版本去除词性标注,也希望有更好的 Pull Request 可以提供该功能 - 支持繁体分词 - 支持自定义词典 ** 算法 - 基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG) - 采用了动态规划查找最大概率路径, 找出基于...