"type": "text", "analyzer": "whitespace", "search_analyzer": "standard" } } } } 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. # 不指定分词时,会使用默认的standard 1. 注意: 明确字段是否需要分词,不需要分词的字段将type设置为keyword,可以节省空间和提高写性能。 _analyzer api GET _...
分析器的组成结构: 分析器(analyzer) - Character filters (字符过滤器)0个或多个 - Tokenizer (分词器)有且只有一个 - Token filters (token过滤器)0个或多个 1. 2. 3. 4. 内置分析器 1、whitespace 空白符分词 POST _analyze { "analyzer": "whitespace", "text": "你好 世界" } { "tokens": ...
StopAnalyzer:在 SimpleAnalyzer 基础上去除 the,a,is 等词,也就是加入了停用词。 WhitespaceAnalyzer: 空格分词器,通过空格来分割文本信息,非英文不进行分词。 上面这些也都是 ES 内置的分词器。比如 Standard Analyzer 的例子是下面这样的。 输入文本内容: "The 2 QUICK Brown-Foxes jumped over the lazy dog'...
"type":"whitespace" } } } } } 上面指定创建索引时使用的默认分词器为simple分词器,而搜索的默认分词器为whitespace分词器。
Whitespace Analyzer(空格分析器):空格分析器基于空格来划分文本。它 内部使用whitespace tokenizer来切割数据. 例如: Input=> “quick brown fox”Output=> [quick, brown, fox] 自定义Analyzer 就上面所说,分析器是分词器和过滤器的结合。所以,你可以按照你的需求定义你自己的分析器,从可以使用的分词器和过滤器。
Whitespace Analyzer 按空格切分 #stop GET _analyze { "analyzer": "whitespace", "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone." } 输出: [The,2,QUICK,Brown-Foxes,jumped,over,the,lazy,dog's,bone.] Keyword Analyzer ...
Whitespace Analyzer – 按照空格切分,不转小写 Keyword Analyzer – 不分词,直接将输入当作输出 Patter Analyzer – 正则表达式,默认 \W+ (非字符分隔) Language – 提供了30多种常见语言的分词器 Customer Analyzer 自定义分词器 使用analyzer api analyzer api ...
SimpleAnalyzer:功能强于WhitespaceAnalyzer,将所有的字符lowcase化,不支持中文,保留停用词,并以非字母字符作为单个语汇单元的边界。 StopAnalyzer:StopAnalyzer的功能超越了SimpleAnalyzer,在SimpleAnalyzer的基础上增加了去除StopWords的功能,不支持中文 StandardAnalyzer:英文的处理能力同于StopAnalyzer,保留XY&Z形式的单词,且...
(3)Whitespace Analyzer 代码语言:javascript 复制 GET/_analyze{"analyzer":"whitespace","text":"2 running Quick brown-foxes leap over lazy dogs in the summer evening."} 分词结果:按照空格切分,不转小写。可以看到,brown-foxes被看成是一个整体,并未像其他分词一样分为brown 和 foxes。此外,也不会强制...
POST _analyze { "text": "I like Beijing, China", "analyzer": "whitespace" } 结果:[I, like, Beijing, China] Stop Analyzer 停止分析器就像简单的分析器,但也支持去除停用词。 Keyword Analyzer 关键字分析器是一个 “noop” 分析器,它接受给定的任何文本并输出与单个术语完全相同的文本。 例子: POST...