IK-MAX-WORD:这种模式会将文本最大程度地切分成独立的词汇。它主要通过条件随机场(Conditional Random Field, CRF)模型来识别词汇边界,然后使用动态规划寻找最优的词段划分。 IK-SMART:这种模式结合了理解歧义和未知词的算法,对文本进行词典分词的同时,也会智能识别词汇的边界,从而提高分词的准确性。 分词词典(Diction...
IK分词器地址:https://github.com/medcl/elasticsearch-analysis-ik IK分词器有两种分词模式:ik_max_word和ik_smart模式。 1、ik_max_word 会将文本做最细粒度的拆分,比如会将“中华人民共和国人民大会堂”拆分为“中华人民共和国、中华人民、中华、华人、人民共和国、人民、共和国、大会堂、大会、会堂等词语。 2...
学习过Solr或Elasticsearch的同学都知道IK分词器,它是一个针对中文的分词器。 IK分词器地址:medcl/elasticsearch-analysis-ik IK分词器有两种分词模式:ik_max_word和ik_smart模式。 1、ik_max_word 会将文本做最细粒度的拆分,比如会将“中华人民共和国人民大会堂”拆分为“中华人民共和国、中华人民、中华、华人、人...
ik_max_word和ik_smart介绍 ik_max_word和ik_smart介绍 习过Solr或Elasticsearch的同学都知道IK分词器,它是⼀个针对中⽂的分词器。1、ik_max_word 会将⽂本做最细粒度的拆分,⽐如会将“中华⼈民共和国⼈民⼤会堂”拆分为“中华⼈民共和国、中华⼈民、中华、华⼈、⼈民共和国、⼈民、...
ik_max_word: 0-1 : 7 : ARABIC 1-2 : 天 : COUNT ik_smart 0-2 : 7天 : TYPE_CQUAN 也就是说 ik_max_word 与 ik_smart 在'英文数词+中文量词’的分词场景下,分词结果必定不一样。 3.2. 切分模式和歧义消除剖析 ik分词器的算法原则还是基于中文字典进行字典树的匹配。
最近在 git 上看看 ik 的相关问题,发现大家问的比较多的是 ik 分词器的 ik_smart 和 ik_max_word 两个分词模式,以及它俩之间的分词差异。 1、Elasticsearch ik 分词器常见问题 最近在 git 上看看 ik 的相关问题,发现大家问的比较多的是 ik 分词器的 ik_smart 和 ik_max_word 两个分词模式,以及它俩之间...
IK分词器有两种分词模式:ik_max_word和ik_smart模式。 1、ik_max_word 会将文本做最细粒度的拆分,比如会将“中华人民共和国人民大会堂”拆分为“中华人民共和国、中华人民、中华、华人、人民共和国、人民、共和国、大会堂、大会、会堂等词语。 2、ik_smart ...
ik_max_word和 ik_smart介绍 1、ik_max_word 会将文本做最细粒度的拆分,比如会将“中华人民共和国人民大会堂”拆分为“中华人民共和国、中华人民、中华、华人、人民共和国、人民、共和国、大会堂、大会、会堂等词语。 2、ik_smart 会做最粗粒度的拆分,比如会将“中华人民共和国人民大会堂”拆分为中华人民共和国...
索引分词用的是ik_smart 搜索分词用的是ik_max_word 本地搭建es环境测试了一下 ik_max_word 插件会最细粒度分词 GET _analyze { "analyzer":"ik_max_word", "text":"中华人民共和国大会堂" } 结果为 { "tokens": [ { "token": "中华人民共和国", ...
对于同一个 Query,ik_smart和ik_max_word的分词结果是差别很大的,但是使用我上面定义的两个 analyzer 时,分词结果是相同的,看起来都是使用ik_max_word分词之后再映射的同义词。 是我的配置有问题么? === 补充一下,不完全一样,使用ik_smart的分词结果还是更精炼一些,但是还是把一些词给分的更细了,暂时没看...