MySQL InnoDB索引 3层B+树能存储多少数据，如何计算

ps：如果这篇帖子对于还在找工作和找实习的你有所帮助，可以关注我，给本贴点赞、评论、收藏并订阅专栏；同时不要吝啬您的花花

核心结论：在InnoDB默认配置（16KB数据页、BIGINT类型主键）下，3层B+树（聚簇索引）可存储数据量约为600万~2000万行；非聚簇索引因叶子节点不存储完整行数据，其存储量显著高于聚簇索引。计算的核心逻辑为：总存储行数 = 非叶子节点扇出数² × 单个叶子节点存储行数（3层B+树由根节点、中间层节点及叶子节点构成，其中根节点与中间层节点均为非叶子节点，且二者扇出数保持一致）。

一、计算前提（InnoDB默认配置，适用于生产环境）

存储量计算需明确以下4项核心参数，该参数均为InnoDB默认配置，可通过系统参数调整，但生产环境中通常保持默认值以保障稳定性：

数据页大小：16KB（即16384字节），由innodb_page_size参数在初始化阶段设定，是InnoDB存储引擎磁盘I/O的基本单位，所有索引数据与业务数据均以数据页为单位进行存储；
非叶子节点存储内容：仅存储「索引键值 + 子页指针」，不包含实际业务行数据，以此降低空间占用，提升扇出数（扇出数定义为单个非叶子节点可指向的子节点数量）；
叶子节点存储内容：聚簇索引（主键索引）存储完整业务行数据，非聚簇索引（二级索引）仅存储「索引键值 + 主键值」，查询非聚簇索引后需通过主键值回表获取完整行数据；
额外约定：扣除数据页头部、尾部及页目录等元数据开销后，单个数据页可用空间按15KB（约15360字节）估算（实际元数据开销约1KB，符合InnoDB数据页结构规范）；同时参考innodb_fill_factor默认配置，预留少量空间用于后续数据插入与更新操作，避免页分裂。

二、关键参数计算（分非叶子节点与叶子节点）

1. 非叶子节点：扇出数计算（核心指标）

扇出数（Fan-out）决定B+树的横向扩展能力，扇出数越大，B+树结构越矮胖，磁盘I/O次数越少，查询性能越优。非叶子节点的每个索引条目由「索引键值 + 子页指针」组成，具体计算过程如下：

单个索引条目大小：默认主键采用BIGINT类型（占用8字节），InnoDB数据页指针占用6字节（MySQL 8.0版本默认指针为4字节，本次计算采用通用6字节标准），单个索引条目总大小为8+6=14字节；
单个非叶子节点可用空间：15KB，即15360字节；
扇出数计算：单个非叶子节点可存储的索引条目数量 = 单个非叶子节点可用空间 ÷ 单个索引条目大小，即15360 ÷ 14 ≈ 1097（向下取整）；受数据页元数据实际开销影响，实际扇出数通常按1000~1100估算，为简化计算，本次统一取1000。

补充说明：若主键采用INT类型（占用4字节），单个索引条目大小为4+6=10字节，此时扇出数可提升至15360÷10≈1536，对应存储量可提升约40%。

2. 叶子节点：单个数据页存储行数计算

单个叶子节点可存储的行数，主要取决于「单条业务行数据大小」与「索引类型（聚簇索引/非聚簇索引）」，该参数是影响总存储量的核心变量。

（1）聚簇索引（主键索引，主流应用场景）

聚簇索引的叶子节点存储完整业务行数据，需计入行本身的存储开销（含行头23字节、MVCC隐藏列13字节等，合计约50字节）。结合不同业务场景下的行数据大小，分3种典型场景进行估算：

场景1：行数据量较小（如基础用户表，不含大字段），单条行数据总大小约500字节（含行开销）；单个叶子节点可存储行数 = 15360 ÷ 500 ≈ 30行；
场景2：行数据量中等（常规业务表，包含多个基础字段），单条行数据总大小约1000字节（1KB）；单个叶子节点可存储行数 = 15360 ÷ 1000 ≈ 15行；
场景3：行数据量较大（包含varchar、小文本等字段），单条行数据总大小约2000字节（2KB）；单个叶子节点可存储行数 = 15360 ÷ 2000 ≈ 7行。

注意：若业务表包含BLOB、TEXT等大字段，InnoDB存储引擎会将大字段数据存储于数据页之外，叶子节点仅存储20字节的大字段指针，可有效降低单条行数据大小，提升单个叶子节点的存储行数。

（2）非聚簇索引（二级索引）

非聚簇索引的叶子节点不存储完整业务行数据，仅存储「索引键值 + 主键值」，空间占用量极低，因此其存储量远高于聚簇索引，具体计算如下：

假设二级索引键采用INT类型（4字节），主键采用BIGINT类型（8字节），单个索引条目大小 = 4+8=12字节；
单个叶子节点可存储行数 = 15360 ÷ 12 ≈ 1280行；
非聚簇索引总存储量计算逻辑与聚簇索引一致，仅需替换单个叶子节点存储行数参数即可。

三、3层B+树总存储量计算（核心公式落地）

3层B+树的层级结构为：第1层（根节点，1个非叶子节点）→ 第2层（中间层，数量等于扇出数）→ 第3层（叶子节点，数量等于扇出数的平方）。总存储行数计算公式为：扇出数 × 扇出数 × 单个叶子节点存储行数（即扇出数² × 单个叶子节点存储行数）。

1. 聚簇索引（按扇出数1000计算，分3种场景）

场景1（单条行数据500字节）：1000 × 1000 × 30 = 3000万行；
场景2（单条行数据1000字节）：1000 × 1000 × 15 = 1500万行；
场景3（单条行数据2000字节）：1000 × 1000 × 7 = 700万行。

结合生产环境中数据页的实际利用率（通常为70%~90%），聚簇索引3层B+树的实际存储量约为600万~2000万行。这也是生产环境中建议单表数据量不超过2000万行的核心原因——当数据量超过该阈值时，B+树会升级为4层，增加磁盘I/O次数，导致查询性能下降。

2. 非聚簇索引（按扇出数1000、单个叶子节点1280行计算）

总存储行数 = 1000 × 1000 × 1280 = 12.8亿行。非聚簇索引存储量远高于聚簇索引的核心原因，在于其非叶子节点与叶子节点均不存储完整业务行数据，空间利用率处于较高水平。

四、影响存储量的关键因素（重点关注）

数据页大小：innodb_page_size参数可配置为8KB、32KB等，数据页越大，单个非叶子节点扇出数及单个叶子节点存储行数越多，总存储量越高（如32KB数据页，存储量可实现翻倍），但会增加单次磁盘I/O耗时；
主键类型：主键字段占用空间越小（INT类型＜BIGINT类型），非叶子节点单个索引条目大小越小，扇出数越高，总存储量越高；应避免采用UUID（16字节）作为主键，其会大幅降低扇出数，减少总存储量，同时易引发数据页分裂；
行数据大小：单条行数据越小（字段数量越少、无大字段），单个叶子节点可存储的行数越多，总存储量越高；大字段会显著降低存储效率，建议通过表拆分或页外存储方式优化；
数据页利用率：InnoDB默认预留1/16的数据页空间，用于后续数据插入与更新；随机插入场景下，数据页利用率会降至50%~90%，顺序插入（如自增主键）可将利用率提升至90%以上，间接影响总存储量；
索引类型：聚簇索引因存储完整行数据，存储量远低于非聚簇索引；联合索引会增加非叶子节点单个索引条目大小，降低扇出数，进而减少总存储量。

五、总结

1. 3层B+树存储量的核心影响因素为「扇出数」与「单个叶子节点存储行数」，在InnoDB默认配置下，聚簇索引常用估算值为1000万行左右（单条行数据1KB场景），非聚簇索引存储量可达10亿级；

2. 生产环境中无需进行精确计算，可参考核心结论：聚簇索引3层B+树存储量约为千万级，非聚簇索引约为十亿级；当数据量超过对应量级时，需考虑分库分表或索引优化，保障查询性能；

3. 存储量优化的核心方向：采用自增INT/BIGINT类型主键、精简单条行数据字段、避免使用大字段、合理设计索引结构，以此提升数据页利用率与非叶子节点扇出数。

ps：如果这篇帖子对于还在找工作和找实习的你有所帮助，可以关注我，给本贴点赞、评论、收藏并订阅专栏；同时不要吝啬您的花花

MySQL存储引擎与索引文章被收录于专栏

还在纠结MySQL存储引擎怎么选？选错直接拉垮系统性能！MySQL插件式存储引擎架构适配多元业务：InnoDB（默认）支持事务、行级锁，扛高并发OLTP场景；MyISAM查询快无事务，适配读多写少场景；Memory读写极速但无持久化，适合临时缓存；Archive高压缩归档日志，CSV便捷跨系统交互，NDB支撑分布式集群。本期专栏拆解各引擎核心特性与选型逻辑，教你选对引擎，让数据库性能拉满！