symbol ---保留符号类型,如$or√ custom ---保留自定义类型,使用custom_token_chars设置自定义的字符 4)custom_token_chars:自定义的字符将视为令牌的一部分 注意:将 min_gram 和 max_gram 设置为相同的值通常是有意义的。 min_gram值越小,匹配的文档就越多,但匹配出来的文档相关性质量
token_chars ⇒ 要保留在 token 中的字符,如果 Elasticsearch 遇到任何不属于提供的列表的字符,它将使用该字符作为新 token 的断点。 支持的字符类包括字母、数字、标点符号、符号和空格。 在上面的映射中,我们保留了字母和数字作为 token 的一部分。 如果我们将输入字符串传递为“harry potter: Deathly Hallows”,...
max_gram最大字符长度 token_chars关键词中应包含的字符类。Elasticsearch将分割不属于指定类的字符。默认为[] 未整理完。。。
在字符级别做ngram 可调参数: min_gram 最小长度, 默认1 max_gram 最大长度, 默认2 token_chars 可以被包含在token中的字符集,默认是全部包含,可以选择 letter — for example a, b, ï or 京 digit — for example 3 or 7 whitespace — for example " " or "\n" punctuation...
token_chars:生成的分词结果中包含的字符类型,默认是全部类型。如上的示例中代表:保留数字、字母。若上述示例中,只指定 "letter",则数字就会被过滤掉,分词结果只剩下串中的字符如:"OF"。 返回结果截取片段如下: "highlight": { "acode": [ "160213.OF" ] } 1. 2...
},"tokenizer": {"my_tokenizer": {"type":"ngram","min_gram":3,"max_gram":10,"token_chars":["letter","digit"]} } } },"mappings": {"properties": {"title": {"type":"text","analyzer":"my_analyzer","fields": {"keyword": {"type":"keyword"} ...
token_chars关键词中应包含的字符类。Elasticsearch将分割不属于指定类的字符。默认为[] 结构化文本分词 关键词分词器(Keyword Tokenizer) 关键词分词器其实是执行了一个空操作的分析。它将任何输入的文本作为一个单一的关键词输出。 分词例子 原始内容 "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone...
1 先看下NGram分词器属性min_gram:单个词的最小长度,默认1max_gram:但歌词的最大长度,默认2token_chars:大概就是es会按照不在列表中的字符集合进行文本分割(具体意思大家看图原文^_^)2 token_chars字符classes:letter for example a, b, ï or 京digit for example 3 or 7whitespace for...
token_chars:生成的分词结果中包含的字符类型,默认是全部类型。如上的示例中代表:保留数字、字母。若上述示例中,只指定 "letter",则数字就会被过滤掉,分词结果只剩下串中的字符如:"OF"。 返回结果截取片段如下: "highlight" : { "acode" : [ "160213.OF" ] } 已经能...
.startObject("my_ngramAnalyzer").field("type", "ngram").field("min_gram", 1).field("max_gram", 1).field("token_chars", "letter, digit") .endObject() .endObject() .endObject() .endObject(); return settings; } //创建Index1中的字段 ...