IK-SMART模式更注重词典的准确性和歧义处理,而IK-MAX-WORD模式则更注重词汇的最大化。 为了充分利用词典,你可能需要根据你的具体需求和文本类型来选择最合适的分词模式,并可能需要对词典进行一些调整或优化。例如,如果你的文本中有很多专有名词或技术术语,使用IK-SMART模式可能会更有效地识别这些词汇。 在Elasticsearch...
ik_smart的分词效果: { “tokens”: [ { “token”: “华为手机”, “start_offset”: 0, “end_offset”: 4, “type”: “CN_WORD”, “position”: 0 } ] } 看到两个分词器的区别了吧,因为华为手机是一个词,所以ik_smart不再细粒度分了。 此时,我们可以在索引时使用 ik_max_word,在搜索时用...
通俗搞懂 ik_max_word和 ik_smart的区别 ik_max_word和ik_smart是ik分词器 1. ik_max_word 将文档里的字词进行拆分,其拆分粒度细。比如:我是程序员 ---> 我 是 程序员 程序 员 今天星期一 ---> 今天 星期一 2. ik_smart 将文档里的字词进行拆分,其拆分粒度粗。比如:我是程序员 ---> 我 是 程...
Note: ik_smart is not a subset of ik_max_word. 官方这里简单的描述了一下使用用途,即: ik_smart 比较适合 match_phrase query,而 ik_max_word 更合适 term query。 ik_smart 的分词结果并不是 ik_max_word 的分词结果的子集。 那这两个分词器在具体实现上会有什么不一样呢? 哪些场景两个分词器的...
索引分词用的是ik_smart 搜索分词用的是ik_max_word 本地搭建es环境测试了一下 ik_max_word 插件会最细粒度分词 GET _analyze { "analyzer":"ik_max_word", "text":"中华人民共和国大会堂" } 结果为 { "tokens": [ { "token": "中华人民共和国", ...
1、Elasticsearch ik 分词器常见问题 最近在 git 上看看 ik 的相关问题,发现大家问的比较多的是 ik 分词器的 ik_smart 和 ik_max_word 两个分词模式,以及它俩之间的分词差异。 这里来集中解释一波,期望对大家有帮助。 2、ik_smart 与 ik_max_word 的异同 ...
1、Elasticsearch ik 分词器常见问题 最近在 git 上看看 ik 的相关问题,发现大家问的比较多的是 ik 分词器的 ik_smart 和 ik_max_word 两个分词模式,以及它俩之间的分词差异。 这里来集中解释一波,期望对大家有帮助。 2、ik_smart 与 ik_max_word 的异同 ...
区别 ik_smart:分词的时候只分一次,句子里面的每个字只会出现一次 ik_max_word:句子的字可以反复出现。 只要在词库里面出现过的 就拆分出来。如果没有出现的单字。如果已经在词里面出现过,那么这个就不会以单字的形势出现 例如:对于文本"湖南省常德市" ...
ik_smart:分词的时候只分一次,句子里面的每个字只会出现一次。 比如:中华人民共和国国歌 入上图,分成:中华人民共和国 国歌 2 部分。每个字都自出现了一次。(我指的每一个位置 的子。 2个国 位置不同,是2 个字) ik_max_word:句子的字可以反复出现。 只要在词库里面出现过的 就拆分出来。如果没有出现的单...
区别 ik_smart:分词的时候只分一次,句子里面的每个字只会出现一次 ik_max_word:句子的字可以反复出现。 只要在词库里面出现过的 就拆分出来。如果没有出现的单字。如果已经在词里面出现过,那么这个就不会以单字的形势出现 例如:对于文本"湖南省常德市" ...