ElasticSearch中常见的分词器介绍

作者：System 时间：2024年08月25日分类：所有,elasticsearch 字数：829

这篇文章距离上次修改已过504天，其中的内容可能已经有所变动。

在ElasticSearch中，分词器（Analyzer）是一种用于处理文本字段的组件，它将文本分割成一系列的词项（Tokens），并可以去除停用词（Stop words），并可以将文本转换为小写等。

以下是一些常见的分词器：

Standard Analyzer：默认分词器，按照词根和字母的大小写进行分词，并去除某些单词（如英语中的 "is"、"the" 等）。
Simple Analyzer：更简单的分词器，仅按空格分词，不进行词干提取和小写转换。
Whitespace Analyzer：仅按照空格进行分词，不做其他处理。
Stop Analyzer：类似于Standard Analyzer，但额外还去除了一个预定义的停用词列表。
Keyword Analyzer：不进行分词，将整个输入作为一个词项。
Pattern Analyzer：使用正则表达式来分词，默认使用 \W+ 正则表达式，即非单词字符。
Language Analyzers：针对特定语言的分词器，如 english、french 等，提供了更加复杂的词法分析，例如英语的词干提取。

例子代码，创建一个使用Standard Analyzer的索引：




PUT /my_index
{
  "settings": {
    "analysis": {
      "analyzer": {
        "default": {
          "type": "standard"
        }
      }
    }
  }
}

在上述代码中，我们定义了一个名为 my_index 的索引，并设置了分词器为 standard 类型。当我们对文本字段进行索引或查询时，ElasticSearch将使用这个标准分词器来处理文本。

ElasticSearch中常见的分词器介绍

评论已关闭

推荐阅读