ES 的 4种分页方式，如何选择？-洪萨配资

在 Elasticsearch 中，有 4种常见的分页方法，这篇文章，我们将分析每种方法的优缺点以及我们该如何选择。

1. 使用`from`和`size`

使用from和size是最常用的分页方式，通过设置from参数指定从结果集的哪个位置开始，size参数指定返回多少条记录。使用语法如下：

GET /index/_search { "from": 10, "size": 10, "query": { "match": { "field": "value" } } }

优点

简单易用：实现起来非常直观，适用于大多数基本的分页需求。
广泛支持：Elasticsearch 搜索 API 默认支持这种分页方式。

缺点

性能问题：对于深页（高from值），性能会显著下降，因为 Elasticsearch 需要跳过前面的from条记录。这会导致查询时间增加，尤其是当from值较大时。
资源消耗：高from值会消耗更多的内存和CPU资源，可能影响集群性能。

适用场景

浅分页：适用于前几页的查询（例如，第1页到第10页）。
小数据集：当数据量较小且分页需求不复杂时。

2. 使用`search_after`

search_after基于排序值实现深度分页，通过提供上一个页面的排序值来继续检索下一页的数据。使用语法如下：

GET /index/_search { "size": 10, "query": { "match": { "field": "value" } }, "sort": [ { "timestamp": "asc" }, { "_id": "asc" } ], "search_after": [ "2023-01-01T00:00:00", "some_id" ] }

优点

高效深度分页：相比from/size，search_after在处理深层分页时性能更好，不会随着页数增加而显著下降。
去重性强：结合唯一排序字段（如_id），可以避免重复数据。

缺点

状态管理：需要在客户端保存上一次查询返回的排序值，增加了实现复杂度。
不可跳页：无法像传统分页那样直接跳转到任意页，只能顺序翻页。

适用场景

深度分页：适用于需要访问大量数据且需要高效性能的场景。
数据连续流：适合数据流式访问，如日志检索、实时数据分析等。

3. 使用 Scroll API

Scroll API适用于处理大量数据的批量检索，通过保持一个在查询时刻的快照，允许用户遍历整个结果集。使用语法如下：

POST /index/_search?scroll=1m { "size": 100, "query": { "match_all": {} } } # 获取后续数据 POST /_search/scroll { "scroll": "1m", "scroll_id": "DXF1ZXJ5QW5kRmV0Y2gBAAAAAAA..." }

优点

处理大量数据：适合导出或批量处理大量数据，性能稳定。
避免跳页问题：通过持续的快照避免数据在检索过程中变化影响结果。

缺点

资源消耗：保持 scroll 上下文会占用集群资源，尤其是在并发请求较高时。
不适合实时搜索：Scroll API 主要用于一次性检索，不适合用户交互的分页需求。

适用场景

批量数据导出：如数据迁移、备份等。
大规模分析：需要一次性处理大量文档的场景。

4. 使用 Point in Time

使用 Point in Time (PIT)提供了一种基于时间点的查询方式，允许在多个分页请求中维持一致的视图。使用语法如下：

POST /index/_search?pit=true&size=10 { "sort": [...], "query": { ... } } # 后续请求使用 pit_id POST /index/_search { "pit": { "id": "some_pit_id", "keep_alive": "1m" }, "sort": [...], "query": { ... }, "search_after": [ ... ] }

优点

一致性视图：在多个分页请求中保持数据的一致性，即使索引发生变化。
结合 search_after 使用：提高深度分页的效率和一致性。

缺点

复杂度增加：需要管理 PIT 会话，包括生命周期和资源释放。
资源消耗：维持 PIT 会话会占用集群资源。

适用场景

需要一致性分页：如多用户同时分页浏览数据，确保每个用户看到的数据一致。
结合 search_after：需要高效的深度分页且保持一致视图的场景。

5. 如何选择?

5.1 根据分页深度选择

浅分页（前几页）：使用from和size，实现简单且性能可接受。
深度分页：使用search_after或结合Point in Time，提高性能并避免资源浪费。

5.2 根据数据一致性要求

无需严格一致性：from和size已足够，适用于数据不频繁变动的场景。
需要一致性视图：使用Point in Time，确保分页过程中数据的一致性。

5.3 根据使用场景

用户交互分页：通常使用from和size，适合大多数 Web 应用分页需求。
批量处理或导出：使用 Scroll API，适合一次性处理大量数据的任务。

5.4 根据资源和性能考虑

资源有限：避免使用 Scroll API，尤其是在高并发环境下。
性能优化：对于频繁的深度分页，search_after和Point in Time是更优的选择。

6. 总结

本文，我们介绍了 ES的4种分页方式：

from和size：适用于浅分页，简单易用，但不适合深度分页。
search_after：适合深度分页，性能更优，但实现复杂度略高，且不支持随机跳页。
Scroll API：适用于批量处理和导出，不适合实时用户交互的分页需求。
Point in Time (PIT)：提供一致的分页视图，适合需要数据一致性的深度分页场景。

在实际开发中，我们需要根据具体的业务需求、数据量、分页深度和系统资源，选择最合适的分页方法，以达到最佳的性能和用户体验。

ES 的 4种分页方式，如何选择？

1. 使用`from`和`size`

优点

缺点

适用场景

2. 使用`search_after`

优点

缺点

适用场景

3. 使用 Scroll API

优点

缺点

适用场景

4. 使用 Point in Time

优点

缺点

适用场景

5. 如何选择?

5.1 根据分页深度选择

5.2 根据数据一致性要求

5.3 根据使用场景

5.4 根据资源和性能考虑

6. 总结

【零基础突破】网络安全入门完全指南：从纯小白到月入过万的实战路径

VT五轴仿真模型与DMU五轴VT机床仿真模型：一键导入，轻松仿真

SpringBoot 整合 RabbitMQ 最简案例：注解驱动的生产者与消费者开发

RAG实践技巧：这次还做不好AI客服，那我也没办法了...

报告 | 《RAG实践手册构建知识库和问答系统的实战指南》（免费下载PDF版本）

Vue.js前端框架技术课程总结知识点

1. 使用from和size

优点

缺点

适用场景

2. 使用search_after

优点

缺点

适用场景

3. 使用 Scroll API

优点

缺点

适用场景

4. 使用 Point in Time

优点

缺点

适用场景

5. 如何选择?

5.1 根据分页深度选择

5.2 根据数据一致性要求

5.3 根据使用场景

5.4 根据资源和性能考虑

6. 总结

【零基础突破】网络安全入门完全指南：从纯小白到月入过万的实战路径

VT五轴仿真模型与DMU五轴VT机床仿真模型：一键导入，轻松仿真

SpringBoot 整合 RabbitMQ 最简案例：注解驱动的生产者与消费者开发

RAG实践技巧：这次还做不好AI客服，那我也没办法了...

报告 | 《RAG实践手册 构建知识库和问答系统的实战指南》（免费下载PDF版本）

Vue.js前端框架技术课程总结知识点

1. 使用`from`和`size`

2. 使用`search_after`

报告 | 《RAG实践手册构建知识库和问答系统的实战指南》（免费下载PDF版本）