ES多种分页方案以及深分页处理
    		       		warning:
    		            这篇文章距离上次修改已过443天,其中的内容可能已经有所变动。
    		        
        		                
                在Elasticsearch中,分页可以通过from和size参数实现。但是,随着from值的增加,搜索请求的性能会显著下降,这是因为Elasticsearch需要先遍历from指定数量的文档,然后再返回size指定数量的文档。这种情况被称为深分页,因此需要一种更有效的方法来处理分页。
解决深分页的方法之一是使用有序搜索的方式,并利用Elasticsearch的排序特性。例如,如果你是根据时间排序,你可以使用时间戳作为排序依据,并且你可以使用search_after的方式进行分页,这种方式不需要从头开始遍历文档。
以下是一个使用search_after的示例代码:
from elasticsearch import Elasticsearch
from elasticsearch import helpers
 
es = Elasticsearch()
 
# 假设你已经有了一个排序字段的最后一个值
last_sort_value = [123, '2021-01-01T00:00:00']  # 假设是一个数组,包含了你的排序字段的值
 
# 使用search_after进行分页
def search_with_scroll(scroll_id, scroll):
    res = es.search(
        index='your_index',
        scroll=scroll,  # 设置滚动时间,例如'5m'
        size=100,
        sort=['your_sort_field:asc', 'another_field:asc', ...],  # 根据实际排序字段来定
        search_after=last_sort_value,
    )
    return res
 
# 第一次调用,用于初始化滚动
res = search_with_scroll(None, '5m')
 
# 处理结果
for doc in res['hits']['hits']:
    # 处理文档
    print(doc)
 
# 使用search_after进行后续的搜索
last_sort_value = res['hits']['hits'][-1]['sort']
res = search_with_scroll(res['_scroll_id'], '5m')
 
# 滚动并清除滚动ID
helpers.scroll.clear(es, scroll_id=res['_scroll_id'])在这个例子中,我们首先定义了一个search_with_scroll函数,它接受滚动ID和滚动时间作为参数,并执行搜索。在每次迭代中,我们都会更新last_sort_value为当前页最后一个文档的排序值,并使用search_after进行下一次搜索。最后,我们使用Elasticsearch的滚动API来清除滚动。
这种方法避免了深分页带来的性能问题,并且可以有效地进行分页,特别是在需要排序的场景中。
评论已关闭