ElasticSearch深度分页原理及解决方案

这篇文章距离上次修改已过517天，其中的内容可能已经有所变动。

ElasticSearch 在实现深度分页时会遇到性能问题，因为它需要遍历大量的数据。这种方式并不高效，因为它会消耗大量的资源。

解决方案：

使用 search\_after 方法：

search\_after 是一种分页方式，它依赖于上一次查询结果的最后一条记录的排序值（\_score或者指定的sort值）。下一次查询时，使用这个值作为 search\_after 参数的值，然后再请求 top N 条记录。

示例代码：




from elasticsearch import Elasticsearch
 
es = Elasticsearch()
 
# 第一次查询
first_query_response = es.search(
    index='your_index',
    size=10,
    body={
        'query': {
            'match_all': {}
        },
        'sort': [
            {'your_field': 'asc'}
        ]
    }
)
 
# 获取下一次查询需要用到的排序字段值
search_after = first_query_response['hits']['hits'][-1]['sort']
 
# 第二次查询
second_query_response = es.search(
    index='your_index',
    size=10,
    body={
        'query': {
            'match_all': {}
        },
        'sort': [
            {'your_field': 'asc'}
        ],
        'search_after': search_after
    }
)

使用 scroll 方法：

scroll API 用于保持一个搜索的状态，而这个状态可以在之后的任何时间进行查询，这样就可以进行深度分页。

示例代码：




from elasticsearch import Elasticsearch
 
es = Elasticsearch()
 
# 初始化 scroll
res = es.search(
    index='your_index',
    size=1000,
    scroll='5m',  # 保持 scroll 的时间
    body={
        'query': {
            'match_all': {}
        }
    }
)
 
# 获取 scroll_id
scroll_id = res['_scroll_id']
 
# 获取初始的数据
hits = res['hits']['hits']
 
# 在之后的查询中使用 scroll 来获取更多的数据
while len(hits) > 0:
    res = es.scroll(
        scroll_id=scroll_id,
        scroll='5m'  # 保持 scroll 的时间
    )
 
    hits = res['hits']['hits']
    # 处理 hits...

注意：

在使用 search\_after 或 scroll 时，尽量减少 size 的值，因为太大的 size 会占用更多的内存。
尽可能地减少每页的大小，只取所需数据。
使用 scroll 时，要注意设置合理的 scroll 参数，避免大量的内存占用。

ElasticSearch深度分页原理及解决方案

评论已关闭

推荐阅读