System 发布的文章

2024-08-14

Elasticsearch 的安装通常遵循以下步骤：

导入Elasticsearch公钥：




wget -qO - https://artifacts.elastic.co/GPG-KEY-elasticsearch | sudo apt-key add -

添加Elasticsearch到APT源列表：




sudo sh -c 'echo "deb https://artifacts.elastic.co/packages/7.x/apt stable main" > /etc/apt/sources.list.d/elastic-7.x.list'

更新APT包索引：




sudo apt-get update

安装Elasticsearch：




sudo apt-get install elasticsearch

启动Elasticsearch服务：




sudo systemctl start elasticsearch.service

设置Elasticsearch随系统启动：




sudo systemctl enable elasticsearch.service

验证Elasticsearch是否正在运行：




curl -X GET "localhost:9200/"

请确保在执行上述命令时，您具有管理权限（例如使用sudo）。以上步骤适用于基于Debian的系统，如Ubuntu。对于基于RPM的系统，如CentOS，步骤可能略有不同。

System

2024-08-14

所有,elasticsearch

在Elasticsearch中，term level queries是最底层的查询，它们不会对输入文本进行分析，直接对索引中的term（词条）进行查询。最常见的term level query有term查询和terms查询。

以下是使用Elasticsearch DSL进行term查询的Python代码示例：




from elasticsearch import Elasticsearch
 
# 连接到Elasticsearch
es = Elasticsearch("http://localhost:9200")
 
# 使用term查询查找所有字段"field_name"的值为"value"的文档
query = {
    "query": {
        "term": {
            "field_name": "value"
        }
    }
}
 
# 执行查询
response = es.search(index="your_index", body=query)
 
# 输出查询结果
print(response)

以下是使用Elasticsearch DSL进行terms查询的Python代码示例：




from elasticsearch import Elasticsearch
 
# 连接到Elasticsearch
es = Elasticsearch("http://localhost:9200")
 
# 使用terms查询查找所有字段"field_name"的值为"value1"或"value2"的文档
query = {
    "query": {
        "terms": {
            "field_name": ["value1", "value2"]
        }
    }
}
 
# 执行查询
response = es.search(index="your_index", body=query)
 
# 输出查询结果
print(response)

这两个查询都是针对确切的值进行查询，不进行分析，适用于精确匹配的场景。

System

2024-08-14

所有,elasticsearch




module.exports = {
  root: true,
  env: {
    node: true,
  },
  extends: [
    'plugin:vue/vue3-essential',
    '@vue/standard',
    '@vue/typescript/recommended',
  ],
  parserOptions: {
    ecmaVersion: 2020,
  },
  rules: {
    'no-console': process.env.NODE_ENV === 'production' ? 'warn' : 'off',
    'no-debugger': process.env.NODE_ENV === 'production' ? 'warn' : 'off',
    '@typescript-eslint/no-explicit-any': 'off',
    '@typescript-eslint/no-empty-function': 'off',
    '@typescript-eslint/no-non-null-assertion': 'off',
    '@typescript-eslint/no-var-requires': 'off',
    '@typescript-eslint/ban-types': 'off',
    '@typescript-eslint/ban-ts-ignore': 'off',
    '@typescript-eslint/explicit-module-boundary-types': 'off',
    '@typescript-eslint/no-unused-vars': 'off',
    '@typescript-eslint/camelcase': 'off',
    '@typescript-eslint/no-empty-interface': 'off',
    'space-before-function-paren': 'off',
    'vue/multi-word-component-names': 'off',
  },
  overrides: [
    {
      files: [
        '**/__tests__/*.{j,t}s?(x)',
        '**/tests/unit/**/*.spec.{j,t}s?(x)',
      ],
      env: {
        jest: true,
      },
    },
  ],
};

这个配置文件关闭了一些与项目不符的Typescript和Vue代码规范检查，同时开启了对应的例外规则，以便在特定的代码测试环境中使用不同的规则。这样做既能保证代码的可读性和可维护性，也能确保单元测试的顺利进行。

System

2024-08-14

所有,elasticsearch

这个报错信息是由ESLint产生的，它是一个静态代码检查工具，旨在检测JavaScript代码中的模式和编码标准问题。

报错解释：

这个报错提示你应该使用// eslint-disable-next-line来忽略下一行的ESLint检查。这通常发生在你的代码不符合ESLint定义的代码风格或规则时。

解决方法：

如果当前行确实存在问题，并且你认为这一行的规则不应该应用于这段代码，你可以修改代码以满足ESLint的规则。
如果你确定忽略这一规则是合适的，你可以在违反规则的那一行代码上方添加// eslint-disable-next-line注释。例如：




// eslint-disable-next-line no-console
console.log('This will not be reported by ESLint');

这样，ESLint就会忽略这一行的规则检查。

注意，应该谨慎使用这种方法，因为它可能会隐藏重要的代码问题。只有当你确定忽略这一规则不会有负面影响时才这样做。

System

2024-08-14

所有,elasticsearch




PUT /my_index
{
  "settings": {
    "number_of_shards": 3,
    "number_of_replicas": 1
  }
}
 
# 使用自定义路由
POST /my_index/_doc?routing=user_id_1
{
  "title": "Document 1",
  "user_id": "user_id_1"
}
 
POST /my_index/_doc?routing=user_id_2
{
  "title": "Document 2",
  "user_id": "user_id_2"
}
 
# 使用文档中的字段作为路由
POST /my_index/_doc
{
  "title": "Document 3",
  "user_id": "user_id_3"
}
 
# 查询时指定路由
GET /my_index/_search?routing=user_id_1
{
  "query": {
    "term": {
      "user_id": "user_id_1"
    }
  }
}

这个代码示例展示了如何在Elasticsearch中使用自定义路由和文档字段来控制文档的分片路由。通过指定路由参数，可以将对特定文档的操作定向到相同的分片，这在需要保持数据局部性的场景中非常有用。

- 阅读更多 -

ES中的数据类型学习之Aggregate metric(聚合计算)

System

2024-08-14

所有,elasticsearch

在Elasticsearch中，Aggregate metric（聚合计算）是一种在数据上进行计算的方式，它可以用来提供数据的统计信息，比如最小值、最大值、平均值、求和等。

聚合可以非常灵活，可以组合使用多种不同类型的聚合。下面是一些常见的聚合计算类型：

Min Aggregation（最小值聚合）
Max Aggregation（最大值聚合）
Sum Aggregation（求和聚合）
Avg Aggregation（平均值聚合）
Stats Aggregation（多种统计信息聚合，包括最小值、最大值、平均值、总和等）
Extended Stats Aggregation（扩展统计信息聚合，包括平均值、样本标准差、分位数等）

以下是一个Elasticsearch DSL查询的例子，使用了一些聚合计算：




GET /exams/_search
{
  "size": 0,
  "aggs": {
    "min_grade": {
      "min": {
        "field": "grade"
      }
    },
    "max_grade": {
      "max": {
        "field": "grade"
      }
    },
    "avg_grade": {
      "avg": {
        "field": "grade"
      }
    },
    "sum_grade": {
      "sum": {
        "field": "grade"
      }
    },
    "stats_grade": {
      "stats": {
        "field": "grade"
      }
    },
    "extended_stats_grade": {
      "extended_stats": {
        "field": "grade"
      }
    }
  }
}

在这个查询中，我们对"grade"字段执行了多种聚合计算。"size": 0表示我们不需要返回任何文档，只需要聚合结果。aggs键下定义了各种聚合。这个查询将返回"grade"字段的最小值、最大值、平均值、总和以及统计信息和扩展统计信息。

- 阅读更多 -

ES底层读写工作原理，看这一篇就够了

System

2024-08-14

所有,elasticsearch

Elasticsearch（ES）底层的读写工作原理涉及很多技术细节，但是为了简洁，我们可以概括为以下几个关键点：

写操作（Write Operation）:
- 客户端发送写请求到节点。
- 节点将写操作广播到集群中所有的数据节点。
- 每个数据节点在本地执行写操作，并将其复制到集群中的其他节点。
- 一旦所有的复制完成，节点向客户端确认写操作完成。
读操作（Read Operation）:
- 客户端发送读请求到节点。
- 节点将读操作委托给包含所需数据的节点。
- 数据节点返回数据给请求节点，然后返回给客户端。
搜索操作（Search Operation）:
- 客户端发送搜索请求到节点。
- 节点将搜索请求分发到某些或所有节点，根据搜索类型（如：dfs\_query\_then\_fetch）和复制设置进行合适的查询。
- 收集结果并处理，最后返回给客户端。
缓存（Caching）:
- 节点可能会缓存一些数据和计算结果以提高性能。
分片（Sharding）:
- 数据分布在不同的分片上，以实现数据的横向扩展。
副本（Replica）:
- 每个分片可以有一个或多个副本，用于提供高可用性和高容错性。
refresh操作:

当文档被索引后，它首先存在于内存缓存中，并在某个时刻被刷新到磁盘，这个过程称为refresh。

合并操作（Merge Operation）:
- 为了维护存储效率，Lucene会定期执行段合并，删除那些包含已删除文档的旧的segments。

以上是Elasticsearch底层读写工作原理的高度概括，实际上每一步骤都涉及到更多细节，例如并发控制、锁机制、事务处理、磁盘I/O优化等等。

- 阅读更多 -

elasticsearch文档Delete By Query API

System

2024-08-14

所有,elasticsearch

在Elasticsearch中，我们可以使用Delete By Query API来删除满足特定查询条件的文档。这个API可以在一个或多个索引中执行，并允许我们定义一个查询来决定哪些文档应该被删除。

以下是一个使用Elasticsearch Python客户端删除特定查询文档的例子：




from elasticsearch import Elasticsearch
 
# 连接到Elasticsearch
es = Elasticsearch("http://localhost:9200")
 
# 定义查询条件
query = {
    "query": {
        "match": {
            "message": "some message"
        }
    }
}
 
# 执行Delete By Query API
response = es.delete_by_query(index="your_index", body=query)
 
# 打印结果
print(response)

在这个例子中，我们首先导入了Elasticsearch模块，然后创建了一个连接到本地Elasticsearch实例的客户端。接着，我们定义了一个查询，它会匹配所有包含特定消息内容的文档。然后我们调用delete_by_query方法，指定我们要操作的索引，并传入我们的查询。最后，我们打印出API的响应。

注意：在实际使用中，你需要替换"http://localhost:9200"为你的Elasticsearch实例地址，"your_index"为你的目标索引，以及query字典为你的具体查询条件。此外，Delete By Query API在较新的Elasticsearch版本中可能会被弃用，因为它可能会对性能产生负面影响。在执行此类操作之前，请确保充分理解其潜在影响。

- 阅读更多 -

技术选型：何时使用Elasticsearch而不是MySQL？

System

2024-08-14

所有,elasticsearch

Elasticsearch和MySQL是两种不同类型的数据库，它们有不同的使用场景和特点。MySQL是关系型数据库，适合事务处理，而Elasticsearch是一个全文搜索引擎，专为云计算中的日志分析、实时搜索等场景设计。

以下是一些使用Elasticsearch而不是MySQL的情况：

全文搜索和复杂的搜索操作：Elasticsearch具有强大的全文搜索能力，可以对文本内容进行分析和索引，以实现快速的搜索查询。
日志和事件分析：Elasticsearch是处理日志和事件数据的理想工具，可以快速地对大量数据进行索引和查询。
实时数据分析：Elasticsearch支持实时数据分析，可以对流入的数据进行即时的查询和分析。
高度可扩展的数据存储：Elasticsearch天生支持分布式架构，可以通过简单的添加节点来扩展存储容量和性能。
非结构化或半结构化数据的存储：Elasticsearch适合存储JSON等无固定结构的数据。

如果你的应用场景需要以上特性，考虑使用Elasticsearch可能会更合适。

- 阅读更多 -

MySQL数据自动同步到Es

System

2024-08-14

所有,elasticsearch

为了将MySQL数据自动同步到Elasticsearch (Es)，你可以使用第三方同步工具，例如：

MaxScale: 具备数据同步功能的数据库中间件。
Debezium: 一个分布式平台，用于捕获数据库变更。
TiDB: 一个兼容MySQL的分布式数据库，具有同步数据到Es的能力。

以下是使用Debezium的一个简单示例：

首先，你需要设置Debezium Connector，这通常是通过配置文件完成的。创建一个JSON文件，如mysql-debezium-connector.json：




{
    "name": "inventory-connector",
    "config": {
        "connector.class": "io.debezium.connector.mysql.MySqlConnector",
        "tasks.max": "1",
        "database.hostname": "你的MySQL服务器地址",
        "database.port": "3306",
        "database.user": "你的数据库用户",
        "database.password": "你的数据库密码",
        "database.server.id": "184054",
        "database.server.name": "my-app-connector",
        "database.include.list": "mydb",
        "database.history.kafka.bootstrap.servers": "kafka:9092",
        "database.history.kafka.topic": "schema-changes.mydb",
        "include.schema.changes": "true",
        "transforms": "unwrap,changelog",
        "transforms.changelog.type": "org.apache.kafka.connect.transforms.ChangelogTransformation",
        "key.converter": "org.apache.kafka.connect.json.JsonConverter",
        "value.converter": "org.apache.kafka.connect.json.JsonConverter",
        "value.converter.schemas.enable": "false",
        "connection.url": "jdbc:mysql://你的MySQL服务器地址:3306/mydb",
        "elasticsearch.hosts": "http://你的Elasticsearch服务器地址:9200",
        "elasticsearch.index.prefix": "mydb-index",
        "elasticsearch.type": "jdbc"
    }
}

然后，启动Debezium Connector：




curl -i -X POST -H "Content-Type: application/json" -d @mysql-debezium-connector.json http://debezium-connector-endpoint/connectors

这个示例假设你已经有了Debezium Connector Endpoint和Kafka集群。Debezium将监控MySQL的变更，并将这些变更作为消息发布到Kafka。接下来，你需要一个消费Kafka消息的服务，这个服务将这些消息转发到Elasticsearch。

这个过程可能涉及到多个服务和配置，但是Debezium提供了一个完整的解决方案，可以实现从MySQL到Elasticsearch的数据同步。

- 阅读更多 -