MySQL 千万级大表实战：从慢查询调优到无损索引构建

在日志监控、业务审计等系统中，我们经常需要对大表（如 table_authlog 登录日志）进行按日维度的聚合统计。同时，随着业务发展，不可避免地需要对这些表追加索引。然而，这两个看似简单的动作，如果不了解 MySQL 的底层运行机制，往往会引发严重的生产事故。

一、查询优化：告别函数导致的索引失效

1. 典型的“性能黑洞” SQL

统计“今日新增记录”，最符合人类直觉的写法通常是直接调用时间函数：

SELECT COUNT(*) FROM table_authlog WHERE TO_DAYS(auth_time) = TO_DAYS(NOW());

或者：

SELECT COUNT(*) FROM table_authlog WHERE DATE(auth_time) = CURRENT_DATE();

在数据量仅有十万级时，这种查询的耗时可能只有几十毫秒，开发者很难察觉异常。但当数据量突破千万级，这类查询会直接导致 CPU 飙升，耗时达到数秒甚至超时。

2. 索引失效的底层原理

为什么在 auth_time 上建了索引，查询依然慢？

MySQL 的 B+ 树索引是基于字段的原始值进行有序排列的。当你在查询谓词中对索引列套用函数（如 TO_DAYS）时，数据库引擎面临的情况是：它无法在 B+ 树上直接找到“经过函数计算后的值”。

为了找出符合条件的数据，引擎只能被迫退化为全表扫描 (Full Table Scan)：

取出表中的每一行数据。
将该行的 auth_time 提取出来，送入 TO_DAYS 函数进行 CPU 计算。
将计算结果与等号右侧的值进行对比。

在数据库理论中，这种写法被称为 Non-SARGable (Non-Search ARGument ABLE)，即不可搜索参数。它使得 B+ 树的时间复杂度优势从 $O(\log N)$ 直接退化为 $O(N)$。

3. 标准解法：左闭右开的范围查询

优化的核心在于 SARGable 化——转换查询条件，而不是转换表里的数据。

我们应该预先计算好时间边界，然后让数据库通过范围查询（Range Query）去截取 B+ 树上的数据段。标准写法如下：

SELECT COUNT(*) AS total_records_today 
FROM table_authlog 
WHERE auth_time >= CURDATE() 
  AND auth_time < CURDATE() + INTERVAL 1 DAY;

优势：

精确命中索引：MySQL 可以利用 B+ 树的有序性，快速定位到 CURDATE() 的起始叶子节点，然后顺着单向链表向后扫描，直到遇到不满足 < CURDATE() + INTERVAL 1 DAY 的节点为止。时间复杂度变为 $O(\log N + M)$（M为匹配的行数）。
规避边界漏洞：使用 >= 和 < 的左闭右开区间，能完美避免跨天时的毫秒级精度丢失问题。

优化后，务必通过 EXPLAIN 指令确认执行计划，确保 type 字段为 range，且 key 命中了预期的时间索引。

二、架构演进：打破单表 COUNT 瓶颈

当单表数据量突破大几千万甚至上亿时，即使完美走索引，高并发下的 COUNT(*) 依然会产生大量的 I/O 成本（需要扫描大量索引页）。此时必须从架构层面破局。

1. T+1 预统计汇总表

不要在用户请求时去实时“数行数”。对于绝大多数报表业务，引入一张极小的 summary_table 是最优解。

每天凌晨（业务低谷期）通过离线任务，将昨天的增量数据跑一次聚合 SQL。
将计算好的总数写入汇总表。
接口查询时，只需一次耗时几微秒的精准主键/索引查询：SELECT count_value FROM summary_table WHERE log_date = '2025-01-01'。

2. 物理分区 (Partition Pruning)

如果业务硬性要求实时查询任意时间段的明细聚合，建议对大表实施按月或按天的 Range 分区。
查询命中特定时间段时，MySQL 会触发分区剪枝（Partition Pruning），直接忽略无关的底层物理文件，从物理层面大幅削减 I/O 扫描量。

三、 DDL 噩梦：为什么给大表加索引会卡死数据库？

在上述优化中，我们提到必须在时间字段上建立索引。但很多开发者在生产环境执行 ALTER TABLE table_authlog ADD INDEX ... 时，会发现数据库不仅执行极慢（通常以小时计），甚至会引发线上业务大规模阻塞。

这并非 MySQL 有 Bug，而是由构建索引的物理机制决定的。建索引不是打标签，而是一次繁重的数据重组。

1. 外部排序与内存的较量

B+ 树的核心是“绝对有序”。要把一张无序的一亿行表转换为 B+ 树索引，第一步就是全量读取与排序，其运算复杂度为 $O(N \log N)$。

MySQL 在内存中分配了一块区域专门用于排序，由 sort_buffer_size 参数控制。

当表数据量极小，排序在内存中瞬间完成。
对于千万级大表，内存根本塞不下。MySQL 被迫采用外部多路归并排序 (External Merge Sort)。

它会将数据切分成小块，在内存排好序后写入磁盘临时文件，最后再把成百上千个临时文件重新读入内存进行归并。这种频繁的磁盘 I/O 置换，是导致建索引极慢的元凶。

2. 脏页刷盘的 I/O 风暴

排序完成后，数据库需要将构建好的巨大 B+ 树结构写入磁盘的 .ibd 数据文件中。几十 GB 的密集磁盘写入会占满服务器的 IOPS 资源，导致线上其他正常的 SELECT/UPDATE 请求因等待磁盘而严重超时。

3. Online DDL 的隐性代价

虽然 MySQL 5.6 之后引入了 Online DDL，允许在建索引期间不锁表、继续写入存量数据，但它需要维护一段增量的 Row Log。如果线上写入 QPS 过高，建完基础索引后去重放（Replay）这段 Row Log 的过程也会非常缓慢，甚至出现死锁或失败。

四、生产环境无损加索引的正确姿势

永远不要在核心大表上直接执行原生的 ALTER TABLE 命令。以下是资深架构师的标配操作指南：

临时调大排序内存 (应急手段)
如果必须使用原生命令（针对非极其核心的表），可以在执行当前会话临时放大内存池，尽量减少磁盘归并：
```
SET session sort_buffer_size = 128 * 1024 * 1024; -- 设为128MB
ALTER TABLE table_authlog ADD INDEX idx_auth_time(auth_time);
```
采用影子表技术 (业界标杆)
针对千万级核心表，强制使用第三方改表工具，如 Percona Toolkit 的 pt-online-schema-change 或 GitHub 开源的 gh-ost。

核心原理：

工具会自动创建一张与原表结构一模一样的新表（空表）。
在空表上瞬间建立好你需要的索引。
通过触发器（pt-osc）或读取 Binlog（gh-ost），将老表的数据一小批一小批地同步到新表。
数据完全同步后，在几毫秒内利用 RENAME TABLE 原子操作交换新老表名。
效果：全程对业务透明，零锁表，零停机，并且可以随时暂停和限流。

敬畏 I/O，选择低谷期
无论使用什么工具，全量数据的读取和写入都会消耗 CPU 和 I/O。一切线上 DDL 操作，必须严格安排在凌晨等业务低谷期执行。

结语

数据库的底层没有黑魔法。一条 SQL 慢，往往是因为它迫使引擎去做了违背数据结构（B+树）特性的遍历计算；一次 DDL 卡顿，往往是因为它触碰到了磁盘随机 I/O 和内存大小的物理天花板。

掌握从范围查询改写到架构引入，再到掌握影子表同步技术，正是后端工程师从“会写业务代码”迈向“掌控高并发系统”的关键分水岭。

版权属于：soarli
本文链接：https://blog.soarli.top/archives/945.html
转载时须注明出处及本声明。

MySQL 千万级大表实战：从慢查询调优到无损索引构建

一、查询优化：告别函数导致的索引失效

1. 典型的“性能黑洞” SQL

2. 索引失效的底层原理

3. 标准解法：左闭右开的范围查询

二、架构演进：打破单表 COUNT 瓶颈

1. T+1 预统计汇总表

2. 物理分区 (Partition Pruning)

三、 DDL 噩梦：为什么给大表加索引会卡死数据库？

1. 外部排序与内存的较量

2. 脏页刷盘的 I/O 风暴

3. Online DDL 的隐性代价

四、生产环境无损加索引的正确姿势

结语

发表评论取消回复

修改ubuntu的sources.list源到阿里云

Windows 禁用 WSL 和 Hyper-V 完整指南

数学建模培训课程1第一章课堂笔记

聪明人和傻子和奴才

Linux 查看端口占用情况

解决Ubuntu下因依赖包而无法安装问题

经济法学课堂笔记

Nextcloud Talk配置使用笔记

在iOS设备上安装kodi的方法

Nextcloud安装及WebDAV配置笔记

一、 查询优化：告别函数导致的索引失效

1. 典型的“性能黑洞” SQL

2. 索引失效的底层原理

3. 标准解法：左闭右开的范围查询

二、 架构演进：打破单表 COUNT 瓶颈

1. T+1 预统计汇总表

2. 物理分区 (Partition Pruning)

三、 DDL 噩梦：为什么给大表加索引会卡死数据库？

1. 外部排序与内存的较量

2. 脏页刷盘的 I/O 风暴

3. Online DDL 的隐性代价

四、 生产环境无损加索引的正确姿势

结语

发表评论 取消回复

一、查询优化：告别函数导致的索引失效

二、架构演进：打破单表 COUNT 瓶颈

四、生产环境无损加索引的正确姿势

发表评论取消回复