ES多种分页方案以及深分页处理

这篇文章距离上次修改已过694天，其中的内容可能已经有所变动。

在Elasticsearch中，分页可以通过from和size参数实现。但是，随着from值的增加，搜索请求的性能会显著下降，这是因为Elasticsearch需要先遍历from指定数量的文档，然后再返回size指定数量的文档。这种情况被称为深分页，因此需要一种更有效的方法来处理分页。

解决深分页的方法之一是使用有序搜索的方式，并利用Elasticsearch的排序特性。例如，如果你是根据时间排序，你可以使用时间戳作为排序依据，并且你可以使用search_after的方式进行分页，这种方式不需要从头开始遍历文档。

以下是一个使用search_after的示例代码：




from elasticsearch import Elasticsearch
from elasticsearch import helpers
 
es = Elasticsearch()
 
# 假设你已经有了一个排序字段的最后一个值
last_sort_value = [123, '2021-01-01T00:00:00']  # 假设是一个数组，包含了你的排序字段的值
 
# 使用search_after进行分页
def search_with_scroll(scroll_id, scroll):
    res = es.search(
        index='your_index',
        scroll=scroll,  # 设置滚动时间，例如'5m'
        size=100,
        sort=['your_sort_field:asc', 'another_field:asc', ...],  # 根据实际排序字段来定
        search_after=last_sort_value,
    )
    return res
 
# 第一次调用，用于初始化滚动
res = search_with_scroll(None, '5m')
 
# 处理结果
for doc in res['hits']['hits']:
    # 处理文档
    print(doc)
 
# 使用search_after进行后续的搜索
last_sort_value = res['hits']['hits'][-1]['sort']
res = search_with_scroll(res['_scroll_id'], '5m')
 
# 滚动并清除滚动ID
helpers.scroll.clear(es, scroll_id=res['_scroll_id'])

在这个例子中，我们首先定义了一个search_with_scroll函数，它接受滚动ID和滚动时间作为参数，并执行搜索。在每次迭代中，我们都会更新last_sort_value为当前页最后一个文档的排序值，并使用search_after进行下一次搜索。最后，我们使用Elasticsearch的滚动API来清除滚动。

这种方法避免了深分页带来的性能问题，并且可以有效地进行分页，特别是在需要排序的场景中。

ES多种分页方案以及深分页处理

评论已关闭

推荐阅读