昨天 19:24 已编辑门头沟学院 Java 发布于北京

关注

MySQL 多索引选择机制详解

ps：如果这篇帖子对于还在找工作和找实习的你有所帮助，可以关注我，给本贴点赞、评论、收藏并订阅专栏；同时不要吝啬您的花花

MySQL 中当表存在多个索引时，并非所有索引都会被生效，而是由优化器（Optimizer）基于特定规则和成本评估，选择“最优”索引执行查询。这一机制的核心是 基于成本的优化器（Cost-Based Optimizer, CBO），即优化器通过计算不同索引的执行成本，选择成本最低的方案，而非单纯依赖索引类型或定义顺序。理解这一机制，能帮助开发者设计更合理的索引、写出更高效的SQL，避免因索引选择不当导致的查询性能瓶颈。

一、多索引选择的核心逻辑

MySQL 优化器的核心目标是最小化查询执行成本，成本主要由 I/O成本（读取磁盘数据页的开销）和 CPU成本（处理数据行、过滤条件的开销）构成。当表存在多个可匹配查询条件的索引时，优化器会执行以下核心流程：

解析SQL语句：拆解WHERE、JOIN、ORDER BY等子句，识别所有可用于过滤或排序的索引（候选索引列表）；
评估候选索引：针对每个候选索引，计算其过滤效率、回表成本、索引覆盖度等关键指标；
计算执行成本：结合索引评估结果，计算每个索引对应的I/O和CPU总开销；
选择最优方案：筛选出成本最低的索引作为执行索引，若所有索引成本均高于全表扫描，则放弃索引，执行全表扫描。

需要注意的是，优化器的选择并非“绝对最优”，而是基于自身维护的统计信息进行的“预估最优”，若统计信息不准确，可能导致索引选择失误。

二、多索引选择的关键评估指标

优化器评估候选索引时，核心依赖以下3个指标，这些指标直接决定了索引的执行效率和成本高低。

2.1 索引选择性（Index Selectivity）

索引选择性是衡量索引过滤能力的核心指标，定义为“索引列中唯一值的比例”，计算公式如下：

$$\text{选择性} = \frac{\text{COUNT(DISTINCT col)}}{\text{COUNT(*)}}$$

选择性越高，说明索引能过滤掉的无效数据越多，扫描的行数越少，执行成本越低。具体判断标准：

选择性 > 0.2：索引高效（如主键、唯一索引，几乎能精准定位单行数据）；
选择性 < 0.05：索引低效（如性别、状态等字段，过滤后仍需扫描大量数据，优化器可能放弃使用）；
选择性介于两者之间：优化器需结合其他指标综合判断。

示例：查询订单表中“分类ID=5且价格>100”的订单，若category_id索引选择性为0.3，price索引选择性为0.1，则优化器会优先选择category_id索引，因其过滤能力更强，扫描行数更少。

2.2 回表成本（Bookmark Lookup Cost）

回表是指二级索引（非聚簇索引）无法覆盖查询所需所有列时，需通过索引中的主键值，回查主键索引（聚簇索引）获取完整数据行的操作。回表会增加大量I/O开销，是影响索引选择的关键因素。

两种场景的成本对比（估算）：

索引覆盖（Using Index）	C₁	查询所需列均在索引中，无需回表，成本最低
需回表（Using Where）	C₁ × 10（估算）	需回主键索引查询完整数据，I/O开销激增

因此，即使某索引选择性较高，若需频繁回表，优化器可能会选择选择性稍低但能实现索引覆盖的索引。

2.3 索引统计信息（Index Statistics）

优化器的成本估算依赖于MySQL定期维护的索引统计信息，包括索引列的基数（唯一值数量）、数据分布直方图等，这些信息存储在INFORMATION_SCHEMA.STATISTICS中。

关键细节：

MySQL会定期采样数据更新统计信息，也可通过ANALYZE TABLE 表名;手动更新，确保统计信息准确性；
统计信息中的Cardinality（基数）字段，反映索引列唯一值的近似数量，基数越高，选择性通常越强；
若统计信息过时（如大量数据插入、删除后未更新），会导致优化器成本估算偏差，进而选错索引。

三、多索引选择的具体场景与策略

实际查询中，多索引选择主要分为3种典型场景，优化器会根据不同场景采用不同的选择策略。

3.1 多个单列索引的竞争场景

当查询条件包含多个单列索引列（如WHERE a=1 AND b>10），且表中存在a、b各自的单列索引时，优化器会对比两个索引的选择性，优先选择选择性更高的索引，过滤后再通过WHERE条件筛选剩余数据。

注意：MySQL优化器默认不会同时使用多个单列索引（除非启用索引合并），因为多个单列索引的组合效率通常低于单个组合索引。

示例：表users存在idx_lastname（last_name）和idx_age（age）两个单列索引，查询SELECT * FROM users WHERE last_name='Smith' OR age=30;，MySQL 5.7+版本可能启用索引合并（Index Merge），合并两个索引的扫描结果，但这种方式的性能通常不如创建组合索引。

3.2 组合索引与单列索引的选择场景

组合索引的选择核心遵循最左前缀原则，即优化器会优先匹配组合索引的最左列，若查询条件包含最左列，组合索引可能被选中；若不包含，则组合索引失效，优化器会选择其他单列索引或全表扫描。

组合索引的生效与失效示例（组合索引idx_a_b(a,b)）：

生效：WHERE a=1、WHERE a=1 AND b>10（匹配最左列a，且b为范围查询）；
失效：WHERE b=1、WHERE a=1 AND c=3（未匹配最左列，或跳过中间列）。

优化器选择策略：当查询条件同时匹配组合索引和单列索引时，若组合索引能实现索引覆盖，或过滤后的行数更少，会优先选择组合索引；否则选择选择性更高的单列索引。

3.3 索引合并（Index Merge）场景

索引合并是优化器的一种备选策略，当查询条件可匹配多个索引，且单个索引的过滤效率有限时，优化器会合并多个索引的扫描结果（交集、并集），提升查询效率。但这种方式仅适用于单个表的查询，且性能通常低于组合索引。

索引合并的3种算法（可通过EXPLAIN的Extra字段查看）：

Intersection（交集）：适用于AND连接的多条件，如WHERE a=1 AND b=2，合并idx_a和idx_b的扫描结果；
Union（并集）：适用于OR连接的多条件，如WHERE a=1 OR b=2，合并两个索引的扫描结果；
Sort-Union（排序并集）：适用于OR连接但索引未排序的场景，先排序再合并结果。

四、实战案例：优化器的决策过程

以景点表attractions为例，演示优化器在多索引场景下的决策逻辑。

4.1 场景准备

表结构：id（主键）、category（景点分类）、rating（评分）、name（景点名称）；
索引配置：单列索引idx_category（category）、idx_rating（rating），组合索引idx_cat_rating（category, rating）；
查询需求：查询“历史类”且评分>4.5的景点，SQL：SELECT * FROM attractions WHERE category='历史' AND rating > 4.5;。

4.2 优化器决策步骤

生成候选索引：idx_category、idx_rating、idx_cat_rating均能匹配查询条件，进入候选列表；
评估选择性：计算各索引的选择性，假设category选择性为0.15（历史类占比15%），rating选择性为0.08（评分>4.5的占比8%）；
评估回表成本：idx_category：过滤后需回表查询rating和name字段，回表成本高；idx_rating：过滤后需回表查询category和name字段，回表成本高；idx_cat_rating：组合索引包含category和rating，若查询仅需这两个字段，可实现索引覆盖，无需回表；若需name字段，回表成本也低于单个单列索引。
计算总成本：idx_cat_rating的过滤效率接近两者乘积（0.15×0.08=0.012），扫描行数最少，且回表成本低，总成本最低；
决策结果：选择组合索引idx_cat_rating作为执行索引。

4.3 验证方法

使用EXPLAIN查看执行计划，若输出中key字段为idx_cat_rating，说明优化器选择正确；若key字段为其他索引或NULL（全表扫描），则需检查统计信息或索引设计。

五、索引选择异常与干预方法

优化器并非万能，当统计信息不准确、数据倾斜或查询写法不当时，可能出现“选错索引”的情况，此时需手动干预优化器的选择。

5.1 常见异常原因

统计信息过时：大量数据插入、删除后，未及时更新统计信息，导致优化器成本估算偏差；
数据倾斜：某索引列的部分值占比极高（如status列90%为“正常”），导致选择性失真；
查询写法不当：对索引列使用函数、隐式类型转换、前缀通配符（如LIKE '%abc'），导致索引失效；
索引设计不合理：多个索引功能重叠，或组合索引列顺序不当。

5.2 手动干预方法

5.2.1 更新统计信息

通过ANALYZE TABLE 表名;手动更新统计信息，帮助优化器准确评估成本，适用于统计信息过时的场景。也可通过设置SET GLOBAL innodb_stats_auto_recalc=ON;，让MySQL自动更新统计信息（数据变化超过10%时触发）。

5.2.2 索引提示（Index Hint）

通过强制使用或忽略指定索引，干预优化器的选择，适用于明确知道最优索引的场景（慎用，数据分布变化后可能失效）。

强制使用索引：SELECT * FROM orders FORCE INDEX (idx_category) WHERE category_id=5 AND price>100;；
忽略索引：SELECT * FROM orders IGNORE INDEX (idx_price) WHERE category_id=5 AND price>100;。

5.2.3 优化查询与索引设计

优化查询写法：避免对索引列使用函数（如YEAR(create_time)=2024改为create_time BETWEEN '2024-01-01' AND '2024-12-31'），避免隐式类型转换；
优化索引设计：删除功能重叠的索引（如已有组合索引idx_a_b，可删除单列索引idx_a），调整组合索引列顺序（等值过滤强、选择性高的列放前面）。

六、总结

MySQL多索引选择机制的核心是“成本优先”，优化器通过评估索引选择性、回表成本、统计信息等指标，选择成本最低的索引执行查询。实际开发中，需注意以下3点：

索引设计：优先创建组合索引（贴合查询场景，遵循最左前缀原则），避免过多单列索引，减少索引维护开销和选择冲突；
查询优化：避免导致索引失效的写法，确保查询条件能匹配索引的有效部分；

ps：如果这篇帖子对于还在找工作和找实习的你有所帮助，可以关注我，给本贴点赞、评论、收藏并订阅专栏；同时不要吝啬您的花花

MySQL存储引擎与索引文章被收录于专栏

还在纠结MySQL存储引擎怎么选？选错直接拉垮系统性能！MySQL插件式存储引擎架构适配多元业务：InnoDB（默认）支持事务、行级锁，扛高并发OLTP场景；MyISAM查询快无事务，适配读多写少场景；Memory读写极速但无持久化，适合临时缓存；Archive高压缩归档日志，CSV便捷跨系统交互，NDB支撑分布式集群。本期专栏拆解各引擎核心特性与选型逻辑，教你选对引擎，让数据库性能拉满！