标签分词下的文章

2024-08-25

在ElasticSearch中，分词器（Analyzer）是一种用于处理文本字段的组件，它将文本分割成一系列的词项（Tokens），并可以去除停用词（Stop words），并可以将文本转换为小写等。

以下是一些常见的分词器：

Standard Analyzer：默认分词器，按照词根和字母的大小写进行分词，并去除某些单词（如英语中的 "is"、"the" 等）。
Simple Analyzer：更简单的分词器，仅按空格分词，不进行词干提取和小写转换。
Whitespace Analyzer：仅按照空格进行分词，不做其他处理。
Stop Analyzer：类似于Standard Analyzer，但额外还去除了一个预定义的停用词列表。
Keyword Analyzer：不进行分词，将整个输入作为一个词项。
Pattern Analyzer：使用正则表达式来分词，默认使用 \W+ 正则表达式，即非单词字符。
Language Analyzers：针对特定语言的分词器，如 english、french 等，提供了更加复杂的词法分析，例如英语的词干提取。

例子代码，创建一个使用Standard Analyzer的索引：




PUT /my_index
{
  "settings": {
    "analysis": {
      "analyzer": {
        "default": {
          "type": "standard"
        }
      }
    }
  }
}

在上述代码中，我们定义了一个名为 my_index 的索引，并设置了分词器为 standard 类型。当我们对文本字段进行索引或查询时，ElasticSearch将使用这个标准分词器来处理文本。

- 阅读更多 -

es基于ik分词器“长”关键字wildcard匹配不到数据

System

2024-08-25

所有,elasticsearch

在Elasticsearch中，使用基于IK分词器进行模糊查询时，如果使用通配符查询wildcard无法匹配到数据，可能的原因和解决方法如下：

分词器配置问题：
- 确认IK分词器是否正确安装和配置。
- 检查是否有必要的中文分词字典。
查询语法错误：
- 确认通配符查询语法是否正确。例如，通配符查询中的?、*、*应谨慎使用，以免匹配到不需要的数据。
数据索引问题：
- 确认要查询的数据是否已经被正确索引。
- 检查索引时是否使用了相同的分词器配置。
分词效果问题：
- 使用_analyze API检查文本在不同分词器下的分词结果，确认是否与预期一致。
查询时机问题：
- 确认数据是否已经被索引，并且已经可以被搜索。Elasticsearch需要一定时间来索引和可搜索数据。
版本兼容性问题：
- 确认Elasticsearch和IK分词器的版本是否兼容。
资源限制问题：
- 检查Elasticsearch集群的资源使用情况，如内存、CPU等是否处于安全范围内。
查询优化：
- 如果查询性能低下，考虑优化查询，如使用更精确的查询或者调整索引设置。

解决方法通常涉及检查和调整Elasticsearch的配置，查询语句，或者重新索引数据。如果问题依然存在，可以查看Elasticsearch的日志文件，寻找更具体的错误信息，或者在Elasticsearch社区寻求帮助。

- 阅读更多 -

Docker部署elasticsearch及安装IK分词器插件

System

2024-08-25

所有,elasticsearch




# 拉取Elasticsearch官方Docker镜像
docker pull docker.elastic.co/elasticsearch/elasticsearch:7.10.0
 
# 创建并启动Elasticsearch容器
docker run -d --name elasticsearch -p 9200:9200 -p 9300:9300 \
  -e "discovery.type=single-node" \
  docker.elastic.co/elasticsearch/elasticsearch:7.10.0
 
# 进入Elasticsearch Docker容器
docker exec -it elasticsearch /bin/bash
 
# 在容器内部安装IK分词器插件
elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.10.0/elasticsearch-analysis-ik-7.10.0.zip
 
# 退出容器
exit
 
# 重启Elasticsearch容器
docker restart elasticsearch

这段代码展示了如何使用Docker快速部署Elasticsearch并安装IK分词器插件。首先，我们从Elasticsearch的官方Docker镜像库中拉取了7.10.0版本的镜像。然后，我们创建并启动了一个名为elasticsearch的容器，将9200和9300端口分别映射到宿主机上，并设置环境变量以启动单节点集群。接下来，我们进入容器内部，并使用elasticsearch-plugin命令从GitHub仓库中下载并安装了与Elasticsearch 7.10.0版本对应的IK分词器插件。最后，我们退出容器并重启Elasticsearch服务。

- 阅读更多 -

Elasticsearch的分词技术全面解析

System

2024-08-24

所有,elasticsearch

Elasticsearch 的分词技术主要是通过内置的分词器实现的。Elasticsearch 支持多种分词器，如下：

Standard Analyzer：默认分词器，按照单词进行分词，并且去除标点符号。
Simple Analyzer：去除标点符号，按空格分词。
Whitespace Analyzer：按空格分词，不去除标点符号。
Stop Analyzer：比 Simple Analyzer 更强大，除了去除标点符号，还会去除常见的英文停用词。
Keyword Analyzer：不分词，将整个输入作为一个单独的词汇。
Pattern Analyzer：使用正则表达式来分词，正则表达式由用户自定义。
Language Analyzers：针对特定语言的分词器，例如：English, Chinese, French 等。

以下是创建索引时指定分词器的示例代码：




PUT /my_index
{
  "settings": {
    "analysis": {
      "char_filter": {
        ...
      },
      "tokenizer": {
        ...
      },
      "filter": {
        ...
      },
      "analyzer": {
        "my_analyzer": {
          "tokenizer": "my_tokenizer",
          "filter": ["my_filter"]
        }
      }
    }
  },
  "mappings": {
    "properties": {
      "my_field": {
        "type": "text",
        "analyzer": "my_analyzer"
      }
    }
  }
}

在这个例子中，我们定义了一个名为 my_analyzer 的分词器，它使用了自定义的 tokenizer 和 filter。在字段映射中，我们指定 my_field 字段使用 my_analyzer 分词器。

System

2024-08-24

所有,elasticsearch

以下是使用Docker安装Elasticsearch和Kibana，并安装IK分词器和拼音分词器的步骤和示例代码：

创建docker-compose.yml文件用于定义Elasticsearch和Kibana服务。




version: '3.7'
services:
  elasticsearch:
    image: docker.elastic.co/elasticsearch/elasticsearch:7.10.0
    environment:
      - discovery.type=single-node
    volumes:
      - esdata1:/usr/share/elasticsearch/data
    ports:
      - "9200:9200"
    networks:
      - net-elastic
 
  kibana:
    image: docker.elastic.co/kibana/kibana:7.10.0
    environment:
      - ELASTICSEARCH_HOSTS=http://elasticsearch:9200
    ports:
      - "5601:5601"
    depends_on:
      - elasticsearch
    networks:
      - net-elastic
 
volumes:
  esdata1:
    driver: local
 
networks:
  net-elastic:
    driver: bridge

在docker-compose.yml文件所在目录下运行以下命令启动Elasticsearch和Kibana：




docker-compose up -d

安装IK分词器和拼音分词器，需要先进入Elasticsearch的容器内部：




docker exec -it <elasticsearch-container-name> /bin/bash

在Elasticsearch容器内部执行以下命令来安装分词器插件：




bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.10.0/elasticsearch-analysis-ik-7.10.0_es7.zip
 
# 如果需要拼音分词器，也可以安装
bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-pinyin/releases/download/v7.10.0/elasticsearch-analysis-pinyin-7.10.0.zip

安装完成后，退出容器并重启Elasticsearch服务：




exit
docker restart <elasticsearch-container-name>

现在，您已经成功安装了Elasticsearch和Kibana，并且安装了IK分词器和可能的拼音分词器。可以通过9200端口访问Elasticsearch，通过5601端口访问Kibana。

注意：

请确保您使用的Elasticsearch和Kibana的Docker镜像版本与您安装的分词器插件版本相匹配。
如果您需要使用特定版本的分词器，请替换上述链接中的版本号。
分词器插件的安装步骤可能随版本而异，请参考相应版本的插件文档。

- 阅读更多 -

git在macOS环境下的安装与配置（小白版）_apple git 设置

System

2024-08-24

所有,elasticsearch

在macOS上安装和配置Git的步骤如下：

打开Mac的浏览器并访问 Git官方网站下载最新版本的Git。
下载完成后，会出现一个名为git-2.xx.x.dmg（其中xx是中间数字，版本号会更新）的文件。双击这个文件开始安装。
安装器会自动开始，点击继续。
选择要安装的版本，默认会安装在/usr/local/bin/git。
继续点击继续，直到安装完成。
安装完成后，打开终端（Terminal.app）。
输入以下命令来配置Git的用户名和电子邮件地址：
```
git config --global user.name "你的名字"
git config --global user.email "你的邮箱"
```
替换"你的名字"和"你的邮箱"为你自己的信息。
为了确保Git配置正确，你可以使用以下命令来查看配置信息：
```
git config --global --list
```

以上步骤完成后，Git就在你的macOS系统上安装并配置好了。

- 阅读更多 -

ES全文检索支持IK分词和拼音检索

System

2024-08-24

所有,elasticsearch

在Elasticsearch中，使用IK分词器可以支持中文分词，而拼音分词则可以通过安装和配置pinyin分词器插件来实现。以下是如何在Elasticsearch中设置和使用IK分词器以及pinyin分词器的示例。

安装IK分词器：

首先，你需要下载并安装正确版本的IK分词器。可以使用Elasticsearch的插件安装命令来完成：




bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.10.0/elasticsearch-analysis-ik-7.10.0_es7.10.0.zip

确保将上面的版本号替换为你的Elasticsearch版本对应的版本。

使用IK分词器创建索引：

在Elasticsearch中，你可以定义一个索引时指定分词器：




PUT /my_index
{
  "settings": {
    "analysis": {
      "analyzer": {
        "ik_analyzer": {
          "type": "custom",
          "tokenizer": "ik_max_word"
        }
      }
    }
  },
  "mappings": {
    "properties": {
      "content": {
        "type": "text",
        "analyzer": "ik_analyzer"
      }
    }
  }
}

在这个例子中，我们创建了一个名为my_index的索引，并定义了一个分析器ik_analyzer，它使用IK分词器进行分词。

使用IK分词器进行全文搜索：




GET /my_index/_search
{
  "query": {
    "match": {
      "content": "中国人民共和国"
    }
  }
}

在这个搜索查询中，Elasticsearch会使用ik_analyzer对搜索词汇进行分词，并查找匹配的文档。

安装pinyin分词器：

要使用pinyin分词器，你需要先安装pinyin分词器插件。可以使用如下命令：




bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-pinyin/releases/download/v7.10.0/elasticsearch-analysis-pinyin-7.10.0.zip

使用pinyin分词器创建索引：

在Elasticsearch中，你可以定义一个索引时指定分词器：




PUT /my_index
{
  "settings": {
    "analysis": {
      "tokenizer": {
        "my_pinyin": {
          "type": "pinyin",
          "first_letter": "only",
          "padding_char": " "
        }
      },
      "analyzer": {
        "my_pinyin_analyzer": {
          "type": "custom",
          "tokenizer": "my_pinyin"
        }
      }
    }
  },
  "mappings": {
    "properties": {
      "content": {
        "type": "text",
        "analyzer": "my_pinyin_analyzer"
      }
    }
  }
}

使用pinyin分词器进行全文搜索：




GET /my_index/_search
{
  "query": {
    "match": {
      "content": "zhongguorenming"
    }
  }
}

在这个搜索查询中，Elasticsearch会将搜索词汇转换为拼音，并查找匹配的文档。

以上代码示例提供了如何在El

System

2024-08-23

所有,elasticsearch

Elasticsearch是一个基于Lucene库的搜索和分析引擎，设计用于云计算中，能够达到实时搜索，稳定，可在PB级数据中搜索。

在Linux下安装ElasticSearch，可以选择使用包管理器或者下载压缩包。以下是两种常见的安装方式：

使用包管理器安装（以Debian系为例）：




wget -qO - https://artifacts.elastic.co/GPG-KEY-elasticsearch | sudo apt-key add -
sudo apt-get install apt-transport-https
echo "deb https://artifacts.elastic.co/packages/7.x/apt stable main" | sudo tee -a /etc/apt/sources.list.d/elastic-7.x.list
sudo apt-get update && sudo apt-get install elasticsearch

下载压缩包安装：




wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.10.0-linux-x86_64.tar.gz
tar -xzf elasticsearch-7.10.0-linux-x86_64.tar.gz
cd elasticsearch-7.10.0/

启动Elasticsearch服务：




./bin/elasticsearch

Elasticsearch原生调用API的方式主要是通过HTTP请求，可以使用curl命令行工具进行操作。例如，要创建一个索引：




curl -X PUT "localhost:9200/my_index"

查询索引：




curl -X GET "localhost:9200/my_index"

删除索引：




curl -X DELETE "localhost:9200/my_index"

Elasticsearch也支持许多编程语言的客户端，如Java的RestHighLevelClient，Python的elasticsearch等。以下是使用Python的elasticsearch库进行操作的例子：

安装elasticsearch库：




pip install elasticsearch

使用elasticsearch库：




from elasticsearch import Elasticsearch
 
es = Elasticsearch("http://localhost:9200")
 
# 创建索引
es.indices.create(index='my_index', ignore=400)
 
# 获取索引
es.indices.get('my_index')
 
# 删除索引
es.indices.delete('my_index')

Painless脚本是Elasticsearch中一种安全的、无侵入的方式，用于在Elasticsearch中更新或者修改文档的脚本。以下是一个Painless脚本的例子，它用于更新文档中的一个字段：




POST /my_index/_update_by_query
{
  "script": {
    "lang": "painless",
    "source": "ctx._source.my_field = params.new_value",
    "params": {
      "new_value": "new_value_for_my_field"
    }
  }
}

以上是Elasticsearch的基本介绍和安装、调用方法，实际应用中可能还需要进行复杂的配置和安全设置。

System

2024-08-23

所有,elasticsearch

报错解释：

ApiError(406, 'Content-Type header [application/vnd.elasticsearch+json; com] is not supported') 表示客户端发送的请求中的 Content-Type 头部不被服务器支持。HTTP 406 错误表示服务器无法根据客户端请求的内容特性处理请求。

解决方法：

检查客户端请求的 Content-Type 头部是否正确。对于Elasticsearch，通常正确的 Content-Type 是 application/json。
确保 Content-Type 头部没有额外的参数或者不正确的格式。如果有额里的参数，可能需要移除或者更正。
如果你正在使用Elasticsearch的特定内容类型 application/vnd.elasticsearch+json，确保没有额外的逗号或分号，并且格式正确。

示例修正请求的代码（如果是使用curl的命令行示例）：




curl -X POST "http://example.com:9200/index/_doc/1" -H 'Content-Type: application/json' -d'
{
  "json": "data"
}'

确保在发送请求前修正 Content-Type 头部。如果问题依然存在，请检查Elasticsearch服务器端是否支持该 Content-Type 或者有无其他配置限制。

System

2024-08-23

所有,elasticsearch




# 拉取Elasticsearch和Kibana的官方Docker镜像
docker pull docker.elastic.co/elasticsearch/elasticsearch:7.10.0
docker pull docker.elastic.co/kibana/kibana:7.10.0
 
# 启动Elasticsearch容器
docker run -d --name elasticsearch -p 9200:9200 -p 9300:9300 \
  -e "discovery.type=single-node" \
  docker.elastic.co/elasticsearch/elasticsearch:7.10.0
 
# 启动Kibana容器，并链接到Elasticsearch
docker run -d --name kibana -p 5601:5601 \
  --link elasticsearch:elasticsearch \
  docker.elastic.co/kibana/kibana:7.10.0
 
# 安装中文分词器，例如使用ik分词器
# 拉取ik分词器的Docker镜像
docker pull docker.elastic.co/elasticsearch/elasticsearch-ik:7.10.0
 
# 停止Elasticsearch容器
docker stop elasticsearch
 
# 删除Elasticsearch容器
docker rm elasticsearch
 
# 启动带有ik分词器插件的Elasticsearch容器
docker run -d --name elasticsearch -p 9200:9200 -p 9300:9300 \
  -e "discovery.type=single-node" \
  -e "xpack.security.enabled=false" \
  -e "xpack.monitoring.enabled=true" \
  -e "ELASTIC_PASSWORD=changeme" \
  docker.elastic.co/elasticsearch/elasticsearch:7.10.0
 
# 安装ik分词器
docker exec -it elasticsearch /bin/bash -c "elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.10.0/elasticsearch-analysis-ik-7.10.0.zip"
 
# 重启Elasticsearch容器使插件生效
docker restart elasticsearch

这段代码展示了如何使用Docker部署Elasticsearch和Kibana，并安装中文分词器ik。首先，它拉取官方的Elasticsearch和Kibana镜像。然后，它启动Elasticsearch容器，并暴露必要的端口，并设置环境变量以运行为单节点集群。接下来，它启动Kibana容器并将其链接到Elasticsearch。最后，它停止并删除原始的Elasticsearch容器，重新启动一个新的容器，并安装ik分词器插件。

- 阅读更多 -