Elasticsearch核心技术揭秘：文档索引、查询、分片、评分与分析器‌

这篇文章距离上次修改已过395天，其中的内容可能已经有所变动。

Elasticsearch 作为分布式全文搜索引擎的代表，广泛应用于日志分析、商品搜索、知识库问答等系统。本文将深入剖析其核心机制：文档索引结构、查询处理流程、分片分布原理、BM25 评分算法与分析器（Analyzer）工作流程，并配套图解与代码示例，帮助你构建对 Elasticsearch 内核的系统性认知。

📖 目录

文档与索引结构
查询执行流程总览
分片机制详解（主分片、副本分片）
评分机制解析（TF-IDF → BM25）
分析器的角色与类型
核心原理图解
实战代码：从建索引到查询打分
性能优化建议
小结与拓展

一、文档与索引结构

在 Elasticsearch 中，一切都是文档（Document）。

✅ 一个文档例子：

{
  "title": "Elasticsearch 核心技术揭秘",
  "content": "这是一篇深入讲解索引、查询、评分与分析器的技术文章",
  "tags": ["elasticsearch", "搜索引擎", "分析器"],
  "publish_date": "2024-11-01"
}

📦 文档与索引的关系：

概念	含义
Index	类似关系型数据库的“表”，是文档的逻辑集合
Document	实际存储的 JSON 数据
Mapping	相当于“字段定义”，规定字段类型及分词规则
Field	文档内的字段，如 `title`, `content`

🧠 背后机制：

每个文档被分词后，以倒排索引（Inverted Index）形式存储。

二、查询执行流程总览

Elasticsearch 查询是如何执行的？

客户端发起 DSL 查询
协调节点（Coordinator Node）接收请求
转发到每个主分片（Primary Shard）或副本（Replica）
各分片独立执行查询、打分
汇总所有分片结果、排序、分页
返回给客户端

三、分片机制详解（Sharding）

Elasticsearch 通过**水平分片（Sharding）**实现数据分布与并发查询能力。

🔧 分片类型：

类型	功能
主分片（Primary）	文档写入的目标，负责索引与查询
副本分片（Replica）	主分片的冗余，提升容错与查询性能

📦 分片配置示例：

PUT /articles
{
  "settings": {
    "number_of_shards": 3,
    "number_of_replicas": 1
  }
}

→ 表示总共有 3 主分片，每个主分片对应 1 个副本，共 6 个分片实例。

四、评分机制解析（BM25）

Elasticsearch 使用BM25 算法替代 TF-IDF，用于衡量文档与查询词的相关性。

BM25 公式简化版：

score(q, d) = ∑ IDF(qi) * [(f(qi,d) * (k1 + 1)) / (f(qi,d) + k1 * (1 - b + b * |d|/avgdl))]

参数	含义
f(qi,d)	qi 在文档 d 中出现的频率
	d	文档长度
avgdl	所有文档的平均长度
k1	调节词频影响，一般 1.2～2.0
b	文档长度归一化比例，默认 0.75

五、分析器的角色与类型

分析器（Analyzer）是全文检索的入口。它将文本拆解为词元（Term），形成倒排索引。

🧩 组成：

Text → Character Filter → Tokenizer → Token Filter → Term

📚 常见分析器：

名称	类型	说明
standard	内置	英文通用
ik\_max\_word	第三方	中文分词器，尽量多切词
ik\_smart	第三方	中文分词器，智能少切词
whitespace	内置	仅按空格切分
keyword	内置	不分词，原样索引

六、核心原理图解

+-----------------+
| 用户输入查询关键词 |
+--------+--------+
         |
         v
+-----------------------------+
| 查询 DSL 构造与解析（JSON） |
+--------+--------------------+
         |
         v
+------------------------+
| 分发至所有主/副分片执行 |
+------------------------+
         |
         v
+---------------------+     倒排索引扫描 + 分词匹配 + BM25评分
| Lucene 查询引擎执行 |  <----------------------------
+----------+----------+
           |
           v
+---------------------------+
| 分片结果合并 + 全局排序  |
+---------------------------+
           |
           v
+------------------+
|   查询结果返回    |
+------------------+

七、实战代码：从建索引到查询打分

1️⃣ 创建索引（含 mapping）

PUT /tech_articles
{
  "settings": {
    "analysis": {
      "analyzer": {
        "my_ik": {
          "tokenizer": "ik_max_word"
        }
      }
    }
  },
  "mappings": {
    "properties": {
      "title": {
        "type": "text",
        "analyzer": "my_ik"
      },
      "content": {
        "type": "text",
        "analyzer": "my_ik"
      }
    }
  }
}

2️⃣ 添加文档

POST /tech_articles/_doc
{
  "title": "Elasticsearch 核心机制",
  "content": "深入讲解文档索引、BM25评分、分片原理等核心知识点。"
}

3️⃣ 查询 + 查看评分

POST /tech_articles/_search
{
  "query": {
    "match": {
      "content": "BM25评分"
    }
  }
}

结果示例：

"hits": [
  {
    "_score": 2.197,
    "_source": {
      "title": "...",
      "content": "..."
    }
  }
]

八、性能优化建议

目标	建议
查询快	控制分片数量（< 20 最优）
命中高	使用 `match_phrase`, boost
空间小	关闭 `_all` 字段，设置 only necessary field
中文效果好	使用 IK 分词器，配合自定义词典
查询稳定	增加副本分片，均衡集群负载

九、小结与拓展

本文核心内容回顾：

🔍 倒排索引 是 Elasticsearch 的基础
🧠 分析器 决定了“如何分词”
🧭 分片机制 决定了并发能力与容错能力
📊 评分算法 BM25 更智能、更精准
💡 查询流程 涵盖从 DSL 构造到 Lucene 执行