news 2026/5/13 12:13:58

SELECT * FROM table LIMIT 1000000, 10的庖丁解牛

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
SELECT * FROM table LIMIT 1000000, 10的庖丁解牛

SELECT * FROM table LIMIT 1000000, 10是典型的深度分页查询,表面看是“跳过 100 万行取 10 行”,实则触发全表扫描 + 内存排序,导致磁盘 I/O 爆炸、响应时间飙升


一、执行机制:MySQL 如何处理LIMIT offset, size

▶ 1.执行流程

无索引

有索引

解析 SQL

生成执行计划

是否有索引?

全表扫描 1000010 行

索引扫描 1000010 行

D/E

丢弃前 1000000 行

返回后 10 行

▶ 2.关键问题
  • 必须扫描offset + size
    • 即使只需 10 行,也需读取 1,000,010 行
  • 无法跳过中间行
    • MySQL 不存储“第 N 行的物理位置”(除非聚簇索引)

💡核心认知
LIMIT offset, size的成本 = O(offset + size),而非 O(size)


二、性能陷阱:为什么深度分页如此昂贵?

▶ 1.磁盘 I/O 爆炸
  • 场景
    • 表数据未完全缓存到 Buffer Pool
    • 每读一行需 1 次磁盘随机读(HDD ≈ 10ms/次)
  • 计算
    • 1,000,010 行 × 10ms =2.78 小时(理论值,实际因缓存略低)
▶ 2.内存与 CPU 浪费
  • 排序开销
    • 若无合适索引,需filesort(磁盘临时文件)
  • 网络传输
    • 丢弃的 100 万行仍需从存储引擎传到 Server 层
▶ 3.锁竞争加剧
  • InnoDB 行锁
    • 扫描过程中持有行锁 → 阻塞其他写操作
  • MVCC 版本链
    • 大量历史版本堆积 → Undo Log 膨胀

三、工程优化:四种替代方案

▶ 方案 1:基于游标的分页(推荐)
  • 原理
    • 记录上一页最后一条记录的排序字段值
    • 下一页从该值开始查询
  • 示例
    -- 第一页SELECT*FROMordersWHEREid>0ORDERBYidLIMIT10;-- 第二页(假设上一页最大 id=100)SELECT*FROMordersWHEREid>100ORDERBYidLIMIT10;
  • 优势
    • 执行计划:range→ 直接定位起始点
    • 成本:O(size),与 offset 无关
▶ 方案 2:延迟关联(Deferred Join)
  • 原理
    • 先通过覆盖索引获取主键
    • 再回表查询完整数据
  • 示例
    SELECTt.*FROMorders tINNERJOIN(SELECTidFROMordersORDERBYidLIMIT1000000,10)tmpONt.id=tmp.id;
  • 适用场景
    • 主键为聚簇索引(InnoDB)
    • 覆盖索引可避免回表
▶ 方案 3:记录偏移量(适用于静态数据)
  • 原理
    • 预先计算每页的起始主键
    • 存储到缓存(如 Redis)
  • 示例
    // 缓存第 100000 页起始 ID$startId=Redis::get('page_100000_start_id');$rows=DB::select("SELECT * FROM orders WHERE id >= ? ORDER BY id LIMIT 10",[$startId]);
▶ 方案 4:禁止深度分页
  • 产品设计
    • Google 搜索仅显示前 10 页
    • 电商网站限制“跳转到第 N 页”
  • 技术实现
    if($page>100){thrownewException('超过最大页数');}

四、避坑指南

陷阱破局方案
盲目使用OFFSET深度分页必用游标方案
忽略排序字段选择游标字段必须是索引且唯一(如自增 ID)
宽表全字段查询SELECT必要字段,减少回表

五、终极心法

**“LIMIT 不是分页,
而是性能的悬崖——

  • 当你使用 OFFSET
    你在支付线性成本;
  • 当你切换游标
    你在享受常数时间;
  • 当你限制深度
    你在守护系统。

真正的查询优化,
始于对执行计划的敬畏,
成于对细节的精控。”


结语

从今天起:

  1. 深度分页必用游标方案(WHERE id > last_id
  2. EXPLAIN验证执行计划(避免Using filesort
  3. 产品层限制最大页数(如 ≤ 100 页)

因为最好的分页,
不是跳过百万行,
而是精准定位下一程。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/9 8:40:45

强烈安利!9款AI论文写作软件测评,本科生毕业论文必备

强烈安利!9款AI论文写作软件测评,本科生毕业论文必备 2026年AI论文写作工具测评:为何值得一看? 随着人工智能技术的不断进步,越来越多的本科生开始借助AI工具提升论文写作效率。然而,面对市场上琳琅满目的…

作者头像 李华
网站建设 2026/5/10 2:34:36

生成引擎优化(GEO)助力网站流量增长的实用技巧与策略分析

生成引擎优化(GEO)不仅是提升网站流量的有效工具,也是提高用户体验的重要方式。通过针对特定地理区域优化,网站能够吸引更精准的访问者,同时满足他们的本地需求。关键在于,GEO策略需要与关键词选择、地理定…

作者头像 李华
网站建设 2026/5/9 5:25:41

科技成果转化的破局之道:构建区域创新生态新范式

当前,科技创新已成为推动经济高质量发展的核心动力。然而,在这一过程中,科技成果转化却面临着诸多瓶颈问题,成为制约区域经济发展的重要因素。科技成果供需信息不对称、转化渠道不畅以及专业化服务能力不足等问题,亟需…

作者头像 李华
网站建设 2026/5/9 18:18:11

什么是图像计算?解析AI视觉背后的科学,快速入门指南

当你走过购物中心或繁忙的公共街道时,安装在入口和走道上方的摄像头记录着人们的一举一动。它们每秒都在产生视觉数据,而大多数时候我们甚至毫无察觉。这股持续不断的数据流,为现代人工智能系统提供着养分——从智能安防系统到自动驾驶汽车。…

作者头像 李华
网站建设 2026/5/11 21:02:13

番茄(西红柿)叶病害识别(Python代码,pyTorch框架,深度卷积网络模型,很容易替换为其它模型,带有GUI识别界面)

代码运行要求:Torch>1.13.1即可 1.数据集介绍: 每一个文件夹里装有一类病害叶子的照片,一共10种类别,每种类别下有1100张照片 从第一类到第十类分别如下图所示 2.整体文件夹 data文件夹存放的是未被划分训练集和测试集的原…

作者头像 李华