ElasticSearch运维实战：集群监控与性能调优指南

这篇文章距离上次修改已过205天，其中的内容可能已经有所变动。

集群运维目标与挑战
常用监控维度与关键指标
集群健康监控实战（命令与图解）
节点级性能监控与异常定位
查询慢与写入慢的排查与调优
JVM与GC调优技巧
索引级调优与分片重平衡策略
集群自动化与监控平台接入（Prometheus + Grafana）
典型问题案例分析与解决方案
总结与推荐实践

第一章：集群运维目标与挑战

1.1 运维目标

集群稳定运行（节点不掉线，数据不丢失）
查询写入性能保持在 SLA 范围内
异常及时告警、可视化
资源利用最大化，成本最小化

1.2 运维挑战

类别	说明
分布式复杂性	节点间通信、主节点选举、分片调度
内存管理	JVM heap 使用过高易引发频繁 GC
分片爆炸	不合理的索引配置导致数万个 shard
写入压力	批量写入导致 merge、refresh 消耗剧增
查询热点	查询打在某一个分片或字段上，造成瓶颈

第二章：常用监控维度与关键指标

模块	指标	建议阈值/说明
集群状态	`/_cluster/health`	red/yellow/green
节点	JVM Heap Usage	< 75%
GC	Old GC Count & Time	小于100次/分钟
Indexing	index\_total / throttle	突增为瓶颈信号
查询	search\_query\_total / query\_time	慢查询识别依据
分片	shards per node	< 30个/GB
文件系统	FS 使用率	< 80%
Refresh	refresh time / total	频繁 refresh 导致性能下降

第三章：集群健康监控实战

3.1 查看集群健康状态

GET /_cluster/health

返回示例：

{
  "status": "yellow",
  "number_of_nodes": 5,
  "active_primary_shards": 150,
  "active_shards_percent_as_number": 95.0
}

3.2 使用 `_cat` 命令查看节点资源状态

GET /_cat/nodes?v&h=ip,heap.percent,ram.percent,cpu,load_1,load_5,load_15,node.role,master,name

示例输出：

ip          heap.percent ram.percent cpu load_1 role master name
192.168.1.1 70           82          35  1.0     di   *      node-1

heap.percent 超过 75% 需警惕
cpu 持续高于 80% 需分析查询或写入瓶颈

第四章：节点级性能监控与异常定位

4.1 查看节点统计信息

GET /_nodes/stats

关注字段：

jvm.mem.heap_used_percent
os.cpu.percent
fs.total.free_in_bytes
thread_pool.search.active、bulk.queue

4.2 使用 `hot_threads` 查看瓶颈线程

GET /_nodes/hot_threads

输出例子：

90.0% (900ms out of 1000ms) cpu usage by thread 'elasticsearch[node-1][search][T#3]'
    org.apache.lucene.search.BooleanScorer2.score()
    ...

说明某个查询线程正在消耗大量 CPU，可进一步定位查询慢问题。

第五章：查询慢与写入慢的排查与调优

5.1 慢查询日志开启

在 elasticsearch.yml 中配置：

index.search.slowlog.threshold.query.warn: 1s
index.search.slowlog.threshold.fetch.warn: 500ms

查询慢可能原因：

查询未走索引（未映射字段）
查询字段未建 keyword
查询结果过大（size > 1000）

优化建议：

使用分页 scroll/point-in-time
指定字段聚合（doc_values）
使用 filter 而非 must（filter 可缓存）

5.2 写入慢原因排查

常见瓶颈：

Refresh 过于频繁（默认1s）
Merge 消耗 IO
批量写入未控制大小

优化方案：

PUT /my_index/_settings
{
  "index": {
    "refresh_interval": "30s",
    "number_of_replicas": 0
  }
}

Tips：

写入阶段设置副本数为0；
写入完成再设置回副本；
控制每批 bulk 数量（\~1MB 或 1000 条）

第六章：JVM与GC调优技巧

6.1 JVM 启动参数建议（`jvm.options`）

-Xms8g
-Xmx8g
-XX:+UseG1GC

6.2 G1GC参数解析

分代式GC，老年代回收不影响年轻代
更适合服务端场景
Elasticsearch 默认采用 G1

6.3 GC监控指标

GET /_nodes/stats/jvm

关注：

gc.collectors.old.collection_time_in_millis
gc.collectors.old.collection_count

优化建议：

Heap 不宜超过机器物理内存一半（最大 32G）
Xms = Xmx 避免动态调整导致 GC 抖动

第七章：索引级调优与分片重平衡策略

7.1 控制分片数量

PUT /logs-2024-06
{
  "settings": {
    "number_of_shards": 1,
    "number_of_replicas": 1
  }
}

小索引建议设置 shard = 1
使用 index lifecycle policy 自动合并旧索引

7.2 分片过多影响

集群内存占用增加
每个分片维护自己的 Lucene 索引
查询需要 scatter-gather，效率低

7.3 手动分片重分配

POST /_cluster/reroute

或关闭/打开索引：

POST /my_index/_close
POST /my_index/_open

第八章：集群自动化与监控平台接入

8.1 使用 Prometheus + Grafana

安装 Elastic 官方 exporter：

docker run \
  -p 9108:9108 \
  quay.io/prometheuscommunity/elasticsearch-exporter \
  --es.uri=http://localhost:9200

监控项：

elasticsearch_cluster_status
elasticsearch_cluster_health_active_shards
elasticsearch_indices_query_total

Grafana 模板：

使用 ID 10477：Elasticsearch Cluster Overview
支持节点级别筛选与趋势分析

第九章：典型问题案例分析与解决方案

案例1：某节点频繁 Old GC

检查堆内存使用（heap\_used > 85%）
发现 bulk 写入过于频繁
调整写入批量大小 + 延长 refresh\_interval

案例2：查询延迟飙升

热点字段未设置 keyword 类型
keyword 类型未开启 doc_values
解决方案：重新建索引 + 映射优化

案例3：部分副本分片未分配

status: yellow
查看分片分配解释：

GET /_cluster/allocation/explain

输出：

"explanation": "cannot allocate because disk.watermark.high exceeded"

解决：

扩容节点或清理磁盘
调整 watermark：

PUT /_cluster/settings
{
  "transient": {
    "cluster.routing.allocation.disk.watermark.high": "95%"
  }
}

第十章：总结与推荐实践

运维十大建议：

分片数控制：每GB数据不超 1\~2 个分片；
节点角色分离：master、data、coordinator 三角色分离；
集群节点数为奇数：避免选主冲突；
合理设置 JVM 内存：最大不超 32G；
写入优化：使用 bulk，控制 refresh；
慢查询监控：配置 slowlog；
磁盘使用监控：watermark 预警；
查询缓存使用合理：对 filter 有效；
定期 rollover 索引：避免超大单索引；
接入监控平台：Prometheus + Grafana 或 Elastic APM

ElasticSearch运维实战：集群监控与性能调优指南

目录

第一章：集群运维目标与挑战

1.1 运维目标

1.2 运维挑战

第二章：常用监控维度与关键指标

第三章：集群健康监控实战

3.1 查看集群健康状态

3.2 使用 `_cat` 命令查看节点资源状态

第四章：节点级性能监控与异常定位

4.1 查看节点统计信息

4.2 使用 `hot_threads` 查看瓶颈线程

第五章：查询慢与写入慢的排查与调优

5.1 慢查询日志开启

5.2 写入慢原因排查

第六章：JVM与GC调优技巧

6.1 JVM 启动参数建议（`jvm.options`）

6.2 G1GC参数解析

6.3 GC监控指标

第七章：索引级调优与分片重平衡策略

7.1 控制分片数量

7.2 分片过多影响

7.3 手动分片重分配

第八章：集群自动化与监控平台接入

8.1 使用 Prometheus + Grafana

第九章：典型问题案例分析与解决方案

案例1：某节点频繁 Old GC

案例2：查询延迟飙升

案例3：部分副本分片未分配

第十章：总结与推荐实践

运维十大建议：

评论已关闭

推荐阅读

目录

第一章：集群运维目标与挑战

1.1 运维目标

1.2 运维挑战

第二章：常用监控维度与关键指标

第三章：集群健康监控实战

3.1 查看集群健康状态

3.2 使用 _cat 命令查看节点资源状态

第四章：节点级性能监控与异常定位

4.1 查看节点统计信息

4.2 使用 hot_threads 查看瓶颈线程

第五章：查询慢与写入慢的排查与调优

5.1 慢查询日志开启

5.2 写入慢原因排查

第六章：JVM与GC调优技巧

6.1 JVM 启动参数建议（jvm.options）

6.2 G1GC参数解析

6.3 GC监控指标

第七章：索引级调优与分片重平衡策略

7.1 控制分片数量

7.2 分片过多影响

7.3 手动分片重分配

第八章：集群自动化与监控平台接入

8.1 使用 Prometheus + Grafana

第九章：典型问题案例分析与解决方案

案例1：某节点频繁 Old GC

案例2：查询延迟飙升

案例3：部分副本分片未分配

第十章：总结与推荐实践

运维十大建议：

评论已关闭

推荐阅读

3.2 使用 `_cat` 命令查看节点资源状态

4.2 使用 `hot_threads` 查看瓶颈线程

6.1 JVM 启动参数建议（`jvm.options`）