ik_smart的分词效果: { “tokens”: [ { “token”: “华为手机”, “start_offset”: 0, “end_offset”: 4, “type”: “CN_WORD”, “position”: 0 } ] } 看到两个分词器的区别了吧,因为华为手机是一个词,所以ik_smart不再细粒度分了。 此时,我们可以在索引时使用 ik_max_word,在搜索时用...
IK-SMART:这种模式结合了理解歧义和未知词的算法,对文本进行词典分词的同时,也会智能识别词汇的边界,从而提高分词的准确性。 分词词典(Dictionary)对这两种模式都是有效的,但是它们处理词典的方式略有不同: IK-MAX-WORD:在词典中定义的词汇会被识别出来,但不会影响分词的最大化扩展。即使词典中有定义,IK-MAX-WORD...
区别 ik_smart:分词的时候只分一次,句子里面的每个字只会出现一次 ik_max_word:句子的字可以反复出现。 只要在词库里面出现过的 就拆分出来。如果没有出现的单字。如果已经在词里面出现过,那么这个就不会以单字的形势出现 例如:对于文本"湖南省常德市" 使用ik_smart 模式分词 使用ik_max_word 模式分词 最佳实践...
ik_smart 比较适合 match_phrase query,而 ik_max_word 更合适 term query。 ik_smart 的分词结果并不是 ik_max_word 的分词结果的子集。 那这两个分词器在具体实现上会有什么不一样呢? 哪些场景两个分词器的分词结果肯定不同呢? 造成分词结果不一样的原因是什么? 3、ik 分词器源码分析 3.1. 量词处理源...
IK提供了两个分词算法:ik_smart和ik_max_word 其中ik_smart为最少切分,ik_max_word为最细粒度划分 下载安装 下载不说直接安装.记得版本相同,公众号内回复电脑环境关键字可获取我已经下载好的. 解压缩后拷贝到ElasticSearch的plugins文件夹下 创建ik目录
部分低版本实例的界面和支持的功能可能与本文有区别,请以控制台为准。 IK分词插件介绍 IK分词器的分词规则 IK分词插件的分词器的分词规则包括ik_smart和ik_max_word两种: ik_max_word:将文本按照最细粒度进行拆分,适合术语查询。例如会将计算机汉字输入方法拆分为计算机,计算,算机,汉字输入,汉字,输入,方法。 ik_...
索引分词用的是ik_smart 搜索分词用的是ik_max_word 本地搭建es环境测试了一下 ik_max_word 插件会最细粒度分词 GET _analyze { "analyzer":"ik_max_word", "text":"中华人民共和国大会堂" } 结果为 { "tokens": [ { "token": "中华人民共和国", ...
以上配置定义了 ik_syno 和 ik_syno_smart 这两个新的 analyzer,分别对应 IK 的 ik_max_word 和 ik_smart 两种分词策略。根据 IK 的文档,二者区别如下: ik_max_word:会将文本做最细粒度的拆分,例如「中华人民共和国国歌」会被拆分为「中华人民共和国、中华人民、中华、华人、人民共和国、人民、人、民、共...
同样的文本,使用ik_smart进行分词时,只分成了两个词,和ik_max_word分词器比少了很多。这就是两个分词器的区别,不过这两个分析器都是可以对中文进行分词的。 创建索引时指定IK分词器 既然我们安装了IK中文分词器的插件,那么我们在创建索引时就可以为text类型的字段指定IK中文分词器了。来看看下面的例子, ...