IK-SMART:这种模式结合了理解歧义和未知词的算法,对文本进行词典分词的同时,也会智能识别词汇的边界,从而提高分词的准确性。 分词词典(Dictionary)对这两种模式都是有效的,但是它们处理词典的方式略有不同: IK-MAX-WORD:在词典中定义的词汇会被识别出来,但不会影响分词的最大化扩展。即使词典中有定义,IK-MAX-WORD...
区别 ik_smart:分词的时候只分一次,句子里面的每个字只会出现一次 ik_max_word:句子的字可以反复出现。 只要在词库里面出现过的 就拆分出来。如果没有出现的单字。如果已经在词里面出现过,那么这个就不会以单字的形势出现 例如:对于文本"湖南省常德市" 使用ik_smart 模式分词 使用ik_max_word 模式分词 最佳实践...
“type”: “CN_WORD”, “position”: 0 } ] } 看到两个分词器的区别了吧,因为华为手机是一个词,所以ik_smart不再细粒度分了。 此时,我们可以在索引时使用 ik_max_word,在搜索时用ik_smart。 当输入 华为手机 关键字,只搜索到 包含华为手机的信息,符合用户要求。 如果我想将包含华为 这个词的信息也搜...
ik_smart 比较适合 match_phrase query,而 ik_max_word 更合适 term query。 ik_smart 的分词结果并不是 ik_max_word 的分词结果的子集。 那这两个分词器在具体实现上会有什么不一样呢? 哪些场景两个分词器的分词结果肯定不同呢? 造成分词结果不一样的原因是什么? 3、ik 分词器源码分析 3.1. 量词处理源...
索引分词用的是ik_smart 搜索分词用的是ik_max_word 本地搭建es环境测试了一下 ik_max_word 插件会最细粒度分词 GET _analyze { "analyzer":"ik_max_word", "text":"中华人民共和国大会堂" } 结果为 { "tokens": [ { "token": "中华人民共和国", ...
以上配置定义了 ik_syno 和 ik_syno_smart 这两个新的 analyzer,分别对应 IK 的 ik_max_word 和 ik_smart 两种分词策略。根据 IK 的文档,二者区别如下: ik_max_word:会将文本做最细粒度的拆分,例如「中华人民共和国国歌」会被拆分为「中华人民共和国、中华人民、中华、华人、人民共和国、人民、人、民、共...
部分低版本实例的界面和支持的功能可能与本文有区别,请以控制台为准。 IK分词插件介绍 IK分词器的分词规则 IK分词插件的分词器的分词规则包括ik_smart和ik_max_word两种: ik_max_word:将文本按照最细粒度进行拆分,适合术语查询。 ik_smart:将文本按照粗粒度进行拆分,适合短语查询。
部分低版本实例的界面和支持的功能可能与本文有区别,请以控制台为准。 IK分词插件介绍 IK分词器的分词规则 IK分词插件的分词器的分词规则包括ik_smart和ik_max_word两种: ik_max_word:将文本按照最细粒度进行拆分,适合术语查询。例如会将计算机汉字输入方法拆分为计算机,计算,算机,汉字输入,汉字,输入,方法。 ik_...
它包括了ik_smart和ik_max_word两种分析器,包括了与两种分析器对应的分词器ik_smart和ik_max_word,ik_smart和ik_max_word两种分析器的区别如下:ik_smart:ik_smart的分词的粒度比较粗,适合于基本Phrase的查询,如会把“中华人民共和国”只拆分成“中华人民共和国”;ik_max_word:ik_max_word的拆分就会很细,会...