而ik_smart 分词器主要作用就是通过对词元组合进行歧义裁决来消除词元间的歧义,消除歧义后的直观体现就是不再会有位置重叠的词元(这也是 ik_smart 更适合 match_phrase 查询的原因)。 ik_smart 遵循歧义裁决的主要原则顺序如下: 比较有效文本长度,越长越好; 比较词元个数,越少越好; 路径跨度越大越好; 根据统计...
使用ik_smart 模式分词 使用ik_max_word 模式分词 最佳实践 1.通常情况下,对于分词查询,文档指定的字段使用 ik_max_word 分析器进行分词,客户端使用match查询即可满足需求 2.特殊情况下,业务中既需要ik_max_word 和 ik_smart 两种模式进行查询,新建二级字段(辅助字段)来查询对应的信息,如果需要优先级排序,则指定...
IK提供了两个分词算法:ik_smart和ik_max_word 其中ik_smart为最少切分,ik_max_word为最细粒度划分 下载安装 下载不说直接安装.记得版本相同,公众号内回复电脑环境关键字可获取我已经下载好的. 解压缩后拷贝到ElasticSearch的plugins文件夹下 创建ik目录 重启ES 之前是没有插件加载的 可以清晰的看到加载了analysis-...
而ik_smart 分词器主要作用就是通过对词元组合进行歧义裁决来消除词元间的歧义,消除歧义后的直观体现就是不再会有位置重叠的词元(这也是 ik_smart 更适合 match_phrase 查询的原因)。 ik_smart 遵循歧义裁决的主要原则顺序如下: 比较有效文本长度,越长越好; 比较词元个数,越少越好; 路径跨度越大越好; 根据统计...
通俗搞懂 ik_max_word和 ik_smart的区别 ik_max_word和ik_smart是ik分词器 1. ik_max_word 将文档里的字词进行拆分,其拆分粒度细。比如:我是程序员 ---> 我 是 程序员 程序 员 今天星期一 ---> 今天 星期一 2. ik_smart 将文档里的字词进行拆分,其拆分粒度粗。比如:我是程序员 ---> 我 是 程...
ik_smart: 会做最粗粒度的拆分,比如会将"中华人民共和国国歌"拆分为"中华人民共和国,国歌"。 IK分词有自己的词库,包含关键词词库和停用词词库,同时也支持扩展自定义词库,其中关键词词库会把搜索语句按照关键词切割,停用词词库会直接去掉不参与分词。 分词示例: ik_max_word:细粒度分词 GET _analyze { "analyzer...
ik_smart:将文本按照粗粒度进行拆分,适合短语查询。例如会将计算机汉字输入方法拆分为计算机,汉字输入,方法。 支持的词典类型 IK分词插件支持以下几种词典类型: 词典类型 词典说明 词典文件要求 更新方式 主词典(main.dic) IK分词插件原生内置的主词典包含27万多条中文词语。 如果在创建ES索引时指定了主分词词典,向...
ik_smart:将文本按照粗粒度进行拆分,适合短语查询。例如会将计算机汉字输入方法拆分为计算机,汉字输入,方法。 支持的词典类型 IK分词插件支持以下几种词典类型: 词典类型 词典说明 词典文件要求 更新方式 主词典(main.dic) IK分词插件原生内置的主词典包含27万多条中文词语。 如果在创建ES索引时指定了主分词词典,向...
IK分词器有两种分词模式:ik_max_word和ik_smart模式。 1、ik_max_word 会将文本做最细粒度的拆分,比如会将“乒乓球明年总冠军”拆分为“乒乓球、乒乓、球、明年、总冠军、 冠军。 #方式一ik_max_word GET /_analyze { "analyzer": "ik_max_word", ...
IK分词器有两种分词模式:ik_max_word和ik_smart模式。 1、ik_max_word 会将文本做最细粒度的拆分,比如会将“乒乓球明年总冠军”拆分为“乒乓球、乒乓、球、明年、总冠军、 冠军。 #方式一ik_max_word GET/_analyze {"analyzer":"ik_max_word","text":"乒乓球明年总冠军"} ...