这篇文章距离上次修改已过423天，其中的内容可能已经有所变动。

如何使用 Elasticsearch 中的地理语义搜索增强推荐

在许多推荐场景中，仅依赖传统的关键词匹配往往难以满足用户需求。例如用户希望“查找距离 5 公里内、评分 ≥ 4 的中餐馆”；或者希望“找距离最近且菜品与‘川菜’相关的餐厅”。此时，我们既需要地理空间（Geo）信息，也需要语义匹配（Semantic），二者结合才能真正实现精准推荐。Elasticsearch 天生支持两种能力：

地理（Geo）查询：能够根据经纬度、地理边界、距离等筛选或排序文档。
语义（Semantic）搜索：传统的全文检索（Match、Multi-Match）以及向量检索（Vector Search）能力，使得查询语句与文档内容的语义相似度更高。

将两者结合，可以实现“地理语义搜索（Geo‐Semantic Search）增强推荐”，例如在用户当前位置 3 公里范围内，优先展示与“川菜”相似度最高且评分靠前的餐厅。下面我们将从概念、索引设计、数据准备、单独地理查询、单独语义查询，到最终组合查询的示例，一步步深入讲解，并附有代码示例与流程图解，帮助你快速上手。

一、概念与总体流程

1.1 地理搜索（Geo Search）

Geo Point 字段：在映射（Mapping）中声明某个字段类型为 geo_point，例如：
```
"location": {
  "type": "geo_point"
}
```
常见地理查询类型：
- geo_distance：按照距离过滤或排序（例如“距离 5 公里以内”）。
- geo_bounding_box：在指定矩形框内搜索。
- geo_polygon：在多边形区域内搜索。
排序方式：使用 geo_distance 提供的 _geo_distance 排序，能够将最近的文档排在前面。

1.2 语义搜索（Semantic Search）

全文检索（Full‐Text Search）：常见的 match、multi_match、terms 等查询，基于倒排索引和 BM25 等打分算法进行语义匹配。
向量检索（Vector Search，需 ES 7.12+）：如果你已经将文本转为向量（embedding），可以在映射中增加 dense_vector（或 knn_vector）字段，使用 script_score 或 knn 查询计算向量相似度。
```
"embedding": {
  "type": "dense_vector",
  "dims": 768
}
```
综合评分：往往需要结合文本匹配分数（\_score）与向量相似度，以及其他权重（评分、评论数等）做 function_score 或 script_score。

1.3 Geo‐Semantic 推荐流程图

以下用 ASCII 图示说明在一次推荐请求中的整体流程：

┌───────────────────────────────────────────────────────────────────┐
│                           用户发起查询                            │
│               (“川菜 距离 5km 评价 ≥ 4.0 的酒店”)                 │
└───────────────────────────────────────────────────────────────────┘
                │
                ▼
┌───────────────────────────────────────────────────────────────────┐
│ 1. 解析用户意图：关键字“川菜”、地理位置(经纬度)、半径 5km、评分阈值 │
└───────────────────────────────────────────────────────────────────┘
                │
                ▼
┌───────────────────────────────────────────────────────────────────┐
│ 2. 构建 ES 查询：                                                 │
│     • bool.must: match(菜系: “川菜”)                               │
│     • bool.filter: geo_distance(location, user_loc, ≤ 5km)         │
│     • bool.filter: range(rating ≥ 4.0)                             │
│     • 排序: 综合距离 + 语义相似度 + 评分等                         │
└───────────────────────────────────────────────────────────────────┘
                │
                ▼
┌───────────────────────────────────────────────────────────────────┐
│ 3. ElasticSearch 接收请求：                                        │
│     • 首先通过 geo_distance 过滤出满足 5km 范围内的所有文档          │
│     • 在这些文档里做 match：“川菜”，并计算文本打分 (BM25)             │
│     • （可选）对这些文档执行向量检索，计算 embedding 相似度            │
│     • 同时筛选 rating ≥ 4.0                                         │
│     • 结合不同分数做 function_score 计算最终打分                     │
│     • 返回按综合得分排序的推荐列表                                   │
└───────────────────────────────────────────────────────────────────┘
                │
                ▼
┌───────────────────────────────────────────────────────────────────┐
│ 4. 将推荐结果返回给前端/用户：                                       │
│     • 列表中前几个文档一般是距离最近、文本或向量相似度最高且评分最高的餐厅 │
└───────────────────────────────────────────────────────────────────┘

通过上述流程，既能够实现“只扫目标地理范围”带来的性能提升，又能保证语义（匹配“川菜”）或 embedding（向量相似度）方面的准确度，从而得到更精准的推荐。

二、索引设计：Mapping 与数据准备

在 Elasticsearch 中同时存储地理信息、文本和向量，需要在索引映射里配置三类字段：

geo_point：存储经纬度，用于地理过滤与排序。
文本字段（text + keyword）：存储餐厅名称、菜系列表、描述等，用于全文检索与聚合筛选。
向量字段（可选，若需向量语义检索）：存储 embedding 向量。

下面以“餐厅推荐”为例，构建一个名为 restaurants 的索引映射（Mapping）示例。

2.1 Mapping 示例

PUT /restaurants
{
  "mappings": {
    "properties": {
      "name": {
        "type": "text",                   // 餐厅名称，全文索引
        "fields": {
          "keyword": { "type": "keyword" } // 用于精确聚合
        }
      },
      "cuisines": {
        "type": "keyword"                 // 菜系列表，例如 ["川菜","米线"]
      },
      "location": {
        "type": "geo_point"               // 地理位置，经纬度
      },
      "rating": {
        "type": "float"                   // 餐厅评分，用于过滤和排序
      },
      "review_count": {
        "type": "integer"                 // 评论数，可用于函数加权
      },
      "description": {
        "type": "text"                    // 详细描述，例如“川菜园坐落于市委旁边…”
      },
      "embedding": {
        "type": "dense_vector",           // 可选：存储语义向量
        "dims": 768                       // 对应使用的模型维度
      }
    }
  },
  "settings": {
    "index": {
      "number_of_shards": 5,
      "number_of_replicas": 1
    }
  }
}

name：使用 text 类型方便搜索，也添加了 .keyword 子字段方便做精确聚合或排序。
cuisines：使用 keyword 类型存储一组菜系标签，后续可在 terms 查询中做过滤。
location：使用 geo_point 类型保存餐厅经纬度。
rating & review_count：数值类型字段，用于后续基于评分或热度进行 function_score。
description：餐厅的文字描述，用于全文检索或生成 embedding 向量。
embedding：如果需要做向量检索，可借助 dense_vector 存储 768 维度的向量（例如使用 Sentence‐Transformers、OpenAI Embedding 等模型预先计算得到）。

2.2 示例数据

下面演示如何批量插入几条示例文档，包括地理坐标、菜系标签、评分与向量（向量示例为随机值，实际请使用真实模型生成）。

POST /restaurants/_bulk
{ "index": { "_id": "1" } }
{
  "name": "川味坊",
  "cuisines": ["川菜","火锅"],
  "location": { "lat": 31.2304, "lon": 121.4737 },  // 上海市区示例
  "rating": 4.5,
  "review_count": 256,
  "description": "川味坊是一家正宗川菜餐厅，主打麻辣火锅、水煮鱼等特色菜肴。",
  "embedding": [0.12, -0.23, 0.45, /* ... 共768维向量 */ 0.03]
}
{ "index": { "_id": "2" } }
{
  "name": "江南小馆",
  "cuisines": ["江浙菜"],
  "location": { "lat": 31.2243, "lon": 121.4766 },
  "rating": 4.2,
  "review_count": 180,
  "description": "江南小馆主打苏州菜、杭帮菜，环境优雅、口味地道。",
  "embedding": [0.05, -0.12, 0.38, /* ... 共768维 */ -0.07]
}
{ "index": { "_id": "3" } }
{
  "name": "北京烤鸭店",
  "cuisines": ["北京菜"],
  "location": { "lat": 31.2285, "lon": 121.4700 },
  "rating": 4.7,
  "review_count": 320,
  "description": "北京烤鸭店以招牌烤鸭闻名，皮酥肉嫩，备受食客好评。",
  "embedding": [0.20, -0.34, 0.50, /* ... 共768维 */ 0.10]
}

注意：
上述 embedding 数组演示为伪随机值示例，实际请使用专门的模型（如 sentence‐transformers、OpenAI Embedding）将 description 文本转为向量后再存入。
如果暂时只需要用关键词全文匹配，可以先省略 embedding。

三、单独演示：地理搜索与语义搜索

在将两者结合之前，先分别演示“纯地理搜索”与“纯语义搜索”的查询方式，以便后续比较并组合。

3.1 纯地理搜索示例

3.1.1 查询示例：距离某经纬度 3 公里以内的餐厅

GET /restaurants/_search
{
  "query": {
    "bool": {
      "filter": {
        "geo_distance": {
          "distance": "3km",
          "location": { "lat": 31.2304, "lon": 121.4737 }
        }
      }
    }
  },
  "sort": [
    {
      "_geo_distance": {
        "location": { "lat": 31.2304, "lon": 121.4737 },
        "order": "asc",
        "unit": "km",
        "distance_type": "plane"
      }
    }
  ]
}

geo_distance 过滤器：只保留距离 (31.2304, 121.4737)（上海市示例坐标）3km 以内的文档。
_geo_distance 排序：按照距离从近到远排序，distance_type: plane 表示使用平面距离计算（适合大多数城市内距离）。

3.1.2 响应结果（示例）

{
  "hits": {
    "total": { "value": 2, "relation": "eq" },
    "hits": [
      {
        "_id": "1",
        "_score": null,
        "sort": [0.5],       // 距离约 0.5km
        "_source": { ... }
      },
      {
        "_id": "3",
        "_score": null,
        "sort": [1.2],       // 距离约 1.2km
        "_source": { ... }
      }
    ]
  }
}

结果中只返回了 id=1（川味坊）和 id=3（北京烤鸭店），因为它们在 3km 范围内。
sort: 返回实际距离。

3.2 纯语义搜索示例

3.2.1 基于全文检索

GET /restaurants/_search
{
  "query": {
    "bool": {
      "must": [
        {
          "multi_match": {
            "query": "川菜 火锅",
            "fields": ["name^2", "cuisines", "description"]
          }
        }
      ]
    }
  }
}

multi_match：将查询词 “川菜火锅” 匹配到 name、cuisines、description 三个字段；name^2 表示给 name 字段的匹配结果更高权重。
ES 根据 BM25 算法返回匹配度更高的餐厅。

3.2.2 基于向量检索（需要 `dense_vector` 字段）

假设你已经通过某个预训练模型（如 Sentence‐Transformer）获得用户查询 “川菜火锅” 的 embedding 向量 q_vec（长度 768），则可以执行如下向量检索：

GET /restaurants/_search
{
  "size": 5,
  "query": {
    "script_score": {
      "query": {
        "match_all": {}
      },
      "script": {
        "source": "cosineSimilarity(params.query_vector, 'embedding') + 1.0",
        "params": {
          "query_vector": [0.11, -0.22, 0.44, /* ... 共768维 */ 0.05]
        }
      }
    }
  }
}

script_score：使用内置脚本 cosineSimilarity 计算 query_vector 与文档 embedding 的相似度，并加上常数 1.0 使得分数非负。
返回最接近 “川菜火锅” 语义的前 size=5 个餐厅（与传统 BM25 不同，向量检索更注重语义相似度）。

四、组合 Geo + Semantic：多维度排序与过滤

通常，我们希望将“地理过滤”与“语义相关性”同时纳入推荐逻辑。一般做法是：

先做地理过滤：通过 geo_distance、geo_bounding_box 等将搜索范围缩窄到用户所在区域。
在地理范围内做语义匹配：使用全文 match 或向量检索，对文本内容或 embedding 计算相似度。
结合评分、热门度等其他因素：通过 function_score 或 script_score 将不同因素综合成一个最终分数，再排序。

下面给出一个综合示例，将地理距离、BM25 匹配、评分三者结合，做一个加权函数评分（Function Scoring）。

4.1 组合查询示例： Geo + BM25 + 评分

GET /restaurants/_search
{
  "size": 10,
  "query": {
    "function_score": {
      "query": {
        "bool": {
          "must": [
            {
              "multi_match": {
                "query": "川菜 火锅",
                "fields": ["name^2", "cuisines", "description"]
              }
            }
          ],
          "filter": [
            {
              "geo_distance": {
                "distance": "5km",
                "location": { "lat": 31.2304, "lon": 121.4737 }
              }
            },
            {
              "range": {
                "rating": {
                  "gte": 4.0
                }
              }
            }
          ]
        }
      },
      "functions": [
        {
          "gauss": {
            "location": {
              "origin": "31.2304,121.4737",
              "scale": "2km",
              "offset": "0km",
              "decay": 0.5
            }
          },
          "weight": 5
        },
        {
          "field_value_factor": {
            "field": "rating",
            "factor": 1.0,
            "modifier": "sqrt"
          },
          "weight": 2
        }
      ],
      "score_mode": "sum",    // 将 BM25 score + 高斯距离得分 + 评分得分求和
      "boost_mode": "sum"     // 最终分数与函数得分相加
    }
  }
}

4.1.1 解释

bool.must：匹配 “川菜火锅” 关键词，BM25 打分。
bool.filter.geo_distance：过滤出 5km 范围内的餐厅。
bool.filter.rating：过滤评分 ≥ 4.0。
functions：两个函数评分项
- gauss：基于 location 计算高斯衰减函数得分，参数 scale: 2km 表示距离 2km 内分数接近 1，距离越远得分越小，decay: 0.5 表示每隔 2km 分数衰减到 0.5。乘以 weight: 5 后，会给“近距离”餐厅一个较高的地理加分。
- field_value_factor：将 rating 字段的值（如 4.5）做 sqrt(4.5) 后乘以 weight: 2，为高评分餐厅额外加分。
score_mode: sum：将所有 function 得分相加（相当于距离分数 + 评分分数）。
boost_mode: sum：最终将 BM25 打分与 function_score 得分累加，得到综合得分。

4.1.2 响应（示例）

{
  "hits": {
    "total": { "value": 3, "relation": "eq" },
    "hits": [
      {
        "_id": "1",
        "_score": 12.34,
        "_source": { ... }
      },
      {
        "_id": "3",
        "_score": 10.78,
        "_source": { ... }
      },
      {
        "_id": "2",
        "_score":  8.52,
        "_source": { ... }
      }
    ]
  }
}

"_score" 即为综合得分，越高排在前面。
结果中 id=1（川味坊）和 id=3（北京烤鸭店）因为离用户更近且评分高，综合得分更高；id=2（江南小馆）由于较远或评分稍低得分排在后面。

4.2 组合查询示例： Geo + 向量检索 + 评分

如果你已经为每个餐厅计算了 description 的向量 embedding，希望在地理范围内优先展示语义相似度最高的餐厅，可以使用如下方式。

4.2.1 假设：用户查询 “川菜火锅”，事先计算得到 query 向量 `q_vec`

// 假设 q_vec 长度 768，为示例省略真实值
"q_vec": [0.11, -0.22, 0.43, /* ... 768 维 */ 0.06]

4.2.2 查询示例

GET /restaurants/_search
{
  "size": 10,
  "query": {
    "function_score": {
      "query": {
        "bool": {
          "filter": [
            {
              "geo_distance": {
                "distance": "5km",
                "location": { "lat": 31.2304, "lon": 121.4737 }
              }
            },
            {
              "range": {
                "rating": { "gte": 4.0 }
              }
            }
          ]
        }
      },
      "functions": [
        {
          // 向量相似度得分
          "script_score": {
            "script": {
              "source": "cosineSimilarity(params.query_vector, 'embedding') + 1.0",
              "params": {
                "query_vector": [0.11, -0.22, 0.43, /* ... */ 0.06]
              }
            }
          },
          "weight": 5
        },
        {
          // 距离高斯衰减
          "gauss": {
            "location": {
              "origin": "31.2304,121.4737",
              "scale": "2km",
              "offset": "0km",
              "decay": 0.5
            }
          },
          "weight": 3
        },
        {
          // 评分加分
          "field_value_factor": {
            "field": "rating",
            "factor": 1.0,
            "modifier": "sqrt"
          },
          "weight": 2
        }
      ],
      "score_mode": "sum",
      "boost_mode": "sum"
    }
  }
}

解释

bool.filter.geo_distance：只筛选用户 5km 范围内、评分 ≥ 4.0 的餐厅。
script_score：用 cosineSimilarity 计算用户查询向量与文档 embedding 向量的余弦相似度，并加常数 1.0。乘以 weight: 5，凸显语义相关性在总分中的权重最高。
gauss：给地理近距离加分，weight: 3；
field_value_factor：给评分高的餐厅加分，weight: 2；
score_mode＋boost_mode 均设为 sum：最终得分 = 向量相似度分数（×5）+ 距离衰减分数（×3）+ 评分因子分数（×2）。

五、实战场景举例：周边推荐 App

下面结合一个完整的“周边餐厅推荐”场景，演示如何利用地理语义搜索构建后端接口。

5.1 场景描述

用户希望在手机 App 中：
1. 输入关键词：“川菜火锅”
2. 获取其当前位置半径 5km 内、评分 ≥ 4.0 的餐厅推荐列表
3. 要求最终排序兼顾语义相关性、距离近和评分高
数据已预先导入 ES restaurants 索引，包含字段：
- name（餐厅名称，text＋keyword）
- cuisines（菜系标签，keyword 数组）
- location（经纬度，geo\_point）
- rating（评分，float）
- review_count（评论数，integer）
- description（餐厅详细文字描述，text）
- embedding（description 文本向量，dense\_vector 768 维）
假设客户端已将用户关键词“川菜火锅”转为 embedding 向量 q_vec。

5.2 后端接口示例（Node.js + Elasticsearch）

下面示例用 Node.js（@elastic/elasticsearch 客户端）实现一个 /search 接口：

// server.js (Node.js 示例)
import express from "express";
import { Client } from "@elastic/elasticsearch";

const app = express();
app.use(express.json());

const es = new Client({ node: "http://localhost:9200" });

// 假设有一个辅助函数：将用户查询转为 embedding 向量
async function getQueryVector(queryText) {
  // 伪代码：调用外部 API 生成 embedding，返回 768 维数组
  // 在生产环境可使用 OpenAI Embedding、Sentence-Transformers 自建模型等
  return [0.11, -0.22, /* ... 共768维 */ 0.06];
}

app.post("/search", async (req, res) => {
  try {
    const { queryText, userLat, userLon, radiusKm, minRating, size } = req.body;

    // 1. 将用户查询转为 embedding 向量
    const qVec = await getQueryVector(queryText);

    // 2. 构建 Elasticsearch 查询体
    const esQuery = {
      index: "restaurants",
      size: size || 10,
      body: {
        query: {
          function_score: {
            query: {
              bool: {
                filter: [
                  {
                    geo_distance: {
                      distance: `${radiusKm}km`,
                      location: { lat: userLat, lon: userLon }
                    }
                  },
                  {
                    range: { rating: { gte: minRating || 4.0 } }
                  }
                ]
              }
            },
            functions: [
              {
                // 向量相似度得分
                script_score: {
                  script: {
                    source: "cosineSimilarity(params.query_vector, 'embedding') + 1.0",
                    params: { query_vector: qVec }
                  }
                },
                weight: 5
              },
              {
                // 距离高斯衰减
                gauss: {
                  location: {
                    origin: `${userLat},${userLon}`,
                    scale: "2km",
                    offset: "0km",
                    decay: 0.5
                  }
                },
                weight: 3
              },
              {
                // 评分加分 (rating)
                field_value_factor: {
                  field: "rating",
                  factor: 1.0,
                  modifier: "sqrt"
                },
                weight: 2
              }
            ],
            score_mode: "sum",
            boost_mode: "sum"
          }
        }
      }
    };

    // 3. 执行 ES 搜索
    const { body } = await es.search(esQuery);

    // 4. 返回结果给前端
    const results = body.hits.hits.map((hit) => ({
      id: hit._id,
      score: hit._score,
      source: hit._source,
      distance_km: hit.sort ? hit.sort[0] : null  // 如果排序中含 distance 
    }));

    res.json({ took: body.took, total: body.hits.total, results });
  } catch (error) {
    console.error("Search failed:", error);
    res.status(500).json({ error: error.message });
  }
});

// 启动服务器
app.listen(3000, () => {
  console.log("Server listening on http://localhost:3000");
});

5.2.1 解释与步骤

接收请求：客户端发送 JSON payload，包含：
- queryText：用户输入的查询关键词，如“川菜火锅”。
- userLat, userLon：用户当前位置经纬度。
- radiusKm：搜索半径，单位公里。
- minRating：评分下限，默认为 4.0。
- size：返回结果数量，默认为 10。
转换文本为向量 (getQueryVector)：使用外部模型（如 OpenAI Embedding 或 Sentence‐Transformer）将 “川菜火锅” 编码为 768 维度向量 qVec。
构建 Elasticsearch 查询 (esQuery)：
- bool.filter.geo_distance：只保留距离用户 radiusKm 范围内的餐厅。
- bool.filter.range(rating)：只保留评分 ≥ minRating 的餐厅。
- function_score.functions[0]：计算向量相似度分数，并乘以权重 5。
- function_score.functions[1]：基于地理位置做高斯衰减评分，并乘以权重 3。
- function_score.functions[2]：基于 rating 数值做加权评分，并乘以权重 2。
- score_mode: sum + boost_mode: sum：所有分数相加得到最终得分。
执行查询并返回：将 ES 返回的命中结果提取 _id、_score、_source 等字段返回给前端。

这样，从后端到 ES 完整地实现了“Geo + Semantic + 评分”三维度的帖子级别推荐。

六、最佳实践与注意事项

6.1 路径与缓冲索引（Index Alias）策略

如果想在不影响业务的前提下顺利升级索引 Mapping（例如调整 number_of_shards、添加 dense_vector 字段），建议使用 索引别名（Index Alias）：
1. 创建新索引（例如 restaurants_v2），应用新的 Mapping。
2. 以别名 restaurants_alias 同时指向旧索引和新索引，将流量切分跑一段时间做压力测试。
3. 如果一切正常，再将别名仅指向 restaurants_v2，并删除旧索引。

// 仅示例 alias 操作
POST /_aliases
{
  "actions": [
    { "add": { "index": "restaurants_v2", "alias": "restaurants_alias", "is_write_index": true } }
  ]
}

业务系统只针对 restaurants_alias 做读写，随时可以切换背后索引而不破坏线上服务。

6.2 向量检索的硬件与性能

存储与检索 dense_vector 需要占用较大内存（768 维 × 4 字节 ≈ 3KB/文档）。
当文档量达到数百万或上千万时，需要为节点配置足够大内存（例如 64GB 以上）并考虑分布式向量检索（ES 8.0+ 支持向量索引 KNN ）。
对于高 QPS 的场景，可以单独将向量检索节点隔离，和常规文本搜索节点分开，减轻 IO 竞争。

6.3 地理字段的格式与多格式支持

geo_point 字段支持多种格式："lat,lon" 字符串、{"lat":..,"lon":..} 对象、数组 [lon,lat]。在插入文档时，请保持一致性，避免后续查询报错。
若需要更复杂的 Geo 功能（如 Geo 形状 geo_shape），可为索引添加 geo_shape 字段，支持多边形、折线等高级过滤。

6.4 权重调优与 A/B 测试

function_score.functions 中各个函数的 weight（权重）需要根据实际业务场景进行调优：
- 如果更在意“离用户距离近”，可将 gauss(location) 的 weight 提高；
- 如果更在意“语义匹配（或向量相似度）”，可将 script_score（向量）或 BM25 得分的权重提高；
- 如果更在意“店铺评分高”，可以加大 field_value_factor(rating) 的 weight。
推荐用 离线 A/B 测试：
1. 将真实流量的一部分引入“Geo + Semantic + 当前权重”推荐管道；
2. 与另一套“仅 BM25 + 地理过滤”或不同权重设置进行对比，观察点击率、转化率差异；
3. 根据实验结果不断迭代优化权重。

6.5 缓存与预热

对于热点区域（如每天早高峰/晚高峰时段），可以将常见查询结果缓存到 Redis 等外部缓存中，减轻 ES 压力。
对于新上线的机器或节点，也可以使用 Curator 或自定义脚本定时预热（例如对热门路由做一次空查询 size=0），让分片 warming up，减少首次查询延迟。

七、地理语义搜索的性能监控与调优

在生产环境进行地理语义查询时，应关注以下几个方面，以防出现性能瓶颈，并进行相应调优。

7.1 ES 慢日志（Slow Log）

开启 搜索慢日志，记录耗时超过阈值的搜索请求。修改 elasticsearch.yml：

index.search.slowlog.threshold.query.warn: 1s
index.search.slowlog.threshold.query.info: 500ms
index.search.slowlog.threshold.query.debug: 200ms

index.search.slowlog.threshold.fetch.warn: 500ms
index.search.slowlog.threshold.fetch.info: 200ms
index.search.slowlog.threshold.fetch.debug: 100ms

index.search.slowlog.level: info

通过 /var/log/elasticsearch/<your_index>_search_slowlog.log 查看哪些查询最慢，分析查询瓶颈（如地理过滤是否率先执行？向量相似度脚本是否耗时？）。

7.2 Profile API

使用 Elasticsearch 的 Profile API 详细剖析一个查询的执行过程，找出最耗时的阶段。示例如下：
```
GET /restaurants/_search
{
  "profile": true,
  "query": {
    ...
  }
}
```
返回的 profile 字段中包含每个阶段（ShardSearchContext、Weight、Query、Score 等）的耗时与文档扫描量，用于定位性能瓶颈。

7.3 集群监控指标

关注以下指标：
- CPU 利用率：如果 Script 评分（向量检索）过于频繁，可能导致节点 CPU 飙升。
- 堆内存使用 (jvm.mem.heap_used_percent)：如果存储了大量 dense_vector，Heap 内存可能迅速被占满，需要扩容内存或做分片缩减。
- 磁盘 I/O：地理过滤通常先过滤再排序，但向量相似度计算涉及全文，可能会造成磁盘随机读。
- 线程池使用率：search、search_fetch、search_slowlog、write 等线程池的 queue 和 rejected 指标。

可以通过以下 API 查看节点状态：

curl -X GET "http://<ES_HOST>:9200/_cluster/stats?human=true"
curl -X GET "http://<ES_HOST>:9200/_nodes/stats?filter_path=**.by_context"

八、总结

通过上述内容，我们详细探讨了如何在 Elasticsearch 中利用地理语义搜索（Geo‐Semantic Search）增强推荐，包括以下关键点：

地理字段与地理查询：在 Mapping 中声明 geo_point，通过 geo_distance、geo_bounding_box 等过滤并使用 _geo_distance 排序。
语义检索：可结合经典全文检索（BM25）和向量检索（Cosine Similarity + Dense Vector）。
组合查询逻辑：以 function_score 将地理距离衰减、高品质评分、文本/向量相似度等纳入同一评分模型，综合排序。
索引设计：Mapping 中同时存储地理位置（location）、文本字段（name, description）、数值字段（rating, review_count）和向量字段（embedding），满足多维度召回与排序需求。
推荐场景示例：以“周边餐厅推荐”场景为例，从 Node.js 后端到 ES 查询，完整演示了 Geo + Semantic + 评分的推荐实现。
最佳实践：包括索引别名与版本管理、向量检索硬件要求、缓存与预热、A/B 测试、监控与调优等。

熟练运用地理语义搜索，可以显著提升用户体验：既能快速过滤到“用户附近”符合需求的候选文档，又能保证语义匹配与评分的准确度，从而在高并发场景下实现高效、精准的推荐。如需进一步深究，还可尝试：

地理形状（geo\_shape）与多边形过滤：适合复杂地理区域（如行政区、商圈）范围过滤。
Cross‐Cluster Search (CCS)：当数据分散在多个集群时，可以在多个集群上做统一的 Geo‐Semantic query。
增强语义理解：结合 Elasticsearch 支持的 Painless 脚本或外部 NLP 服务，实现更复杂的意图解析与推荐方案。

希望本文能够帮你系统理解并掌握 Elasticsearch 中地理语义搜索的技术要点，让你在构建“基于位置＋语义”的推荐系统时得心应手。