IK-MAX-WORD:在词典中定义的词汇会被识别出来,但不会影响分词的最大化扩展。即使词典中有定义,IK-MAX-WORD模式仍然会尝试将文本切分成更多的词汇。 IK-SMART:词典中的词汇会被用来提高分词的准确性,词典中的词汇边界会被优先考虑,从而可能减少不必要的扩展。 在两种模式下,词典都是分词过程中的重要参考,但它们在...
2、ik_smart 与 ik_max_word 的异同 首先来看下官方的FAQs What is the difference between ik_max_word and ik_smart? ik_max_word: Performs the finest-grained segmentation of the text. For example, it will segment "中华人民共和国国歌" into "中华人民共和国,中华人民,中华,华人,人民共和国,人民,...
ik_max_word: Performs the finest-grained segmentation of the text. For example, it will segment "中华人民共和国国歌" into "中华人民共和国,中华人民,中华,华人,人民共和国,人民,人,民,共和国,共和,和,国国,国歌", exhaustively generating various possible combinations,suitable for Term Query. ik_sma...
{“text”:“中华人民共和国人民大会堂”,“analyzer”:“ik_max_word” } 测试ik_smart {“text”:“中华人民共和国人民大会堂”,“analyzer”:“ik_smart” } 最佳实践 两种分词器使用的最佳实践是:索引时用ik_max_word,在搜索时用ik_smart。 即:索引时最大化的将文章内容分词,搜索时更精确的搜索到想要的...
一、ik_max_word和 ik_smart介绍 学习过Solr或Elasticsearch的同学都知道IK分词器,它是一个针对中文的分词器。 IK分词器地址:medcl/elasticsearch-analysis-ik IK分词器有两种分词模式:ik_max_word和ik_smart模式。 1、ik_max_word 会将文本做最细粒度的拆分,比如会将“中华人民共和国人民大会堂”拆分为“中华人...
IK分词器有两种分词模式:ik_max_word和ik_smart模式。 1、ik_max_word 会将文本做最细粒度的拆分,比如会将“中华人民共和国人民大会堂”拆分为“中华人民共和国、中华人民、中华、华人、人民共和国、人民、共和国、大会堂、大会、会堂等词语。 2、ik_smart ...
ik_max_word和ik_smart介绍 习过Solr或Elasticsearch的同学都知道IK分词器,它是⼀个针对中⽂的分词器。1、ik_max_word 会将⽂本做最细粒度的拆分,⽐如会将“中华⼈民共和国⼈民⼤会堂”拆分为“中华⼈民共和国、中华⼈民、中华、华⼈、⼈民共和国、⼈民、共和国、⼤会堂、⼤会、...
这里介绍的优化是基于 ik 分词源码的优化。首先,我们知道,ik 分词默认有两种分词模式,分别为:ik_max_word 和 ik_smart 这里针对这两种分词方式分别存在的问题有: ik_max_word :最细粒度分词方式 分的太细了,召回率确实很高,但是会导致召回的内容存在语义问题。例如,北京的一天,召回了 南京的游玩,或者任何地方的...
对于同一个 Query,ik_smart和ik_max_word的分词结果是差别很大的,但是使用我上面定义的两个 analyzer 时,分词结果是相同的,看起来都是使用ik_max_word分词之后再映射的同义词。 是我的配置有问题么? === 补充一下,不完全一样,使用ik_smart的分词结果还是更精炼一些,但是还是把一些词给分的更细了,暂时没看...
ik_max_word和 ik_smart介绍 1、ik_max_word 会将文本做最细粒度的拆分,比如会将“中华人民共和国人民大会堂”拆分为“中华人民共和国、中华人民、中华、华人、人民共和国、人民、共和国、大会堂、大会、会堂等词语。 2、ik_smart 会做最粗粒度的拆分,比如会将“中华人民共和国人民大会堂”拆分为中华人民共和国...