Standard Analyzer:默认分词器,适用于大多数情况,按词切分并进行小写处理,使用空格和符号进行切割分词。 Whitespace Analyzer:根据空白字符切分文本。 Simple Analyzer:将文本切分成单个字符。 Stop Analyzer:移除文本中的停用词。 Keyword Analyzer:将文本视为一个整体,不进行
一、ELK添加中文分词器插件 1.IK分词器测试 1.1 文件准备 1.2 测试 2.pingying分词器测试 2.1 文件准备 2.2 测试 2.2.1 单个测试 2.2.2 多个测试 2.2.3 短语查询测试 2.2.3.1 medcl2索引 2.2.3.2 medcl3索引 前言 分词器的作用是把一段文本中的词按一定规则进行切分。对应的是Analyzer类,这是一个抽象类,...
主要操作步骤 1. es 安装 ik 插件 2. es 配置 logstash 模板,设置 message 字段使用 ik 中文分词器 3. logstash 禁用自动管理模板 4. 重建已存在的索引 具体操作如下。 1. es 安装 ik 插件 过程略。插件内容安装在 es/plugins/ik/ 目录中。安装完成后要重启 es. 2. es 配置 logstash 模板,设置 messa...
ELK(Elasticsearch、Logstash、Kibana)本身并不直接提供中文插件,但可以通过一些配置和扩展来实现对中文的支持。 Elasticsearch 中文分词插件 Elasticsearch 本身对中文分词支持较弱,因此通常需要使用中文分词插件来提高中文搜索和分析的效果。常用的中文分词插件有 ik-analyzer 和pinyin-analyzer。 ik-analyzer ik-analyzer 是...
0、默认分词器。 默认分词器,查询的时候会把中文一个汉字当作一个关键字拆分,这样是不符合我们的需求的,所以需要安装分词器。 1、下载分词器。 当前有多种分词器可下载,据说比较好用的是IK分词器。 注意,下载分词器的时候,版本必须要与Elasticsearch安装的版本一致,否则会出现不可描述的错误。
中文分词指的是将一 个汉字序列切分成- 个一个单独的词。在英文中,单词之间是 以空格作为自然分界符,汉语中词没有一个形式 上的分界符。 上下文不同,分词结果迥异,比如交叉歧义问题,比如下面两种分词都合理 - 乒乓球拍/卖/完了 - 乒乓球/拍卖/完了 常见分词系统 IK 实现中英文单词的切分,支持ik smart. ik...
main.dic : IK中内置的词典。 main dictionary。记录了IK统计的所有中文单词。一行一词。文件中未记录的单词,IK无法实现有效分词。如:雨女无瓜。不建议修改当前文件中的单词。这个是最核心的中文单词库。就好像,很多的网络词不会收集到辞海中一样。 quantifier.dic : IK内置的数据单位词典 ...
IK分词器配置文件 IK分词器配置文件地址:ES/plugins/ik/config目录。 ● IKAnalyzer.cfg.xml:用来配置自定义词库。 ● main.dic(重要):IK原生内置的中文词库,总共有27万多条,只要是这些单词,都会被分在一起。 ● preposition.dic:介词。 ● quantifier.dic:放了一些单位相关的词,量词。
配置中文分词器 第一步:下载安装分词器 在线安装 cd /usr/share/elasticsearch ./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.6.0/elasticsearch-analysis-ik-6.6.0.zip 本地安装 elasticsearch-analysis-ik-6.6.0.zip ...