前言

在学习MySQL过程中,阅读到这样一段话:在 MySQL 中,B+ 树索引按照存储方式的不同分为聚集索引和非聚集索引。我就在想为什么要分为这两种,下面我就详细介绍这两者的联系、优缺点。

一、聚集索引和非聚集索引的本质

  1. 聚集索引
    核心是“数据即索引,索引即数据”:
    • nnoDB 中,表的存储结构本身就是聚集索引的结构,表的所有行数据,都会按照聚集索引的键值(默认是主键)进行排序,存储在聚集索引的叶子节点中。
    • 可以把它理解成:一本按页码(主键)排序的书,书的每一页(叶子节点)就是完整的内容(整行数据)。
  2. 非聚集索引
    是“单独的索引结构,指向数据的指针”:
    • 非聚集索引有自己独立的索引树结构,叶子节点中只存储「索引列的值 + 聚集索引的键值(主键)」,并不存储整行数据。
    • 可以把它理解成:这本书的目录,目录里只记录章节名(索引列)和对应的页码(主键),不记录章节的具体内容。

二、聚集索引和非聚集索引的联系

二者是强绑定的,InnoDB 的设计逻辑里,非聚集索引完全依赖聚集索引:

  1. 非聚集索引的叶子节点,必须存储聚集索引的键值
    InnoDB 的非聚集索引,叶子节点不会直接存储数据的物理地址,而是存储聚集索引的主键值 —— 这是为了保证数据的稳定性(如果数据发生页分裂,物理地址会变化,但主键不会变)
  2. 非聚集索引的回表操作,本质是依赖聚集索引
    当非聚集索引无法覆盖查询(查询字段不在非聚集索引中)时,会先通过非聚集索引找到主键值,再用主键值去聚集索引中查询完整数据,这个过程就是「回表」
  3. 二者的索引树结构逻辑一致
    不管是聚集还是非聚集索引,都采用 B + 树的结构:非叶子节点存储索引键值用于导航,叶子节点存储实际的内容(聚集索引存数据,非聚集索引存索引列 + 主键)

三、优缺点对比

对比维度 聚集索引 非聚集索引
叶子节点存储 存储整行数据 存储索引列的值+聚集索引的主键值
索引体积 体积大(等于表的实际数据体积) 体积小(仅包含索引列和主键,远小于表体积)
访问效率 1. 主键查询/范围查询效率极高 2.非主键查询效率极低(需要全表扫描) 1. 非主键查询(匹配索引列)效率极高 2.覆盖索引场景下,效率优于聚集索引 3.非覆盖场景需回表,效率略降
排序特性 天然按主键排序,无需额外排序 可按索引列排序,避免ORDER BY触发的文件排序
创建限制 1. 一张表仅能创建1个聚集索引 2.默认以主键为聚集索引;无主键则选唯一非空索引;否则生成隐藏rowid 1. 一张表可创建多个非聚集索引 2.支持基于任意字段/联合字段创建
更新代价 更新主键(聚集索引键)会导致整行数据移动,代价极高 更新索引列仅修改索引树节点,代价低;若索引列是主键,会联动修改所有非聚集索引

四、实战案例

我们用一个电商的订单表(order_info)来举例,表结构如下:

CREATE TABLE `order_info` (
  `order_id` BIGINT NOT NULL COMMENT '订单ID(主键,聚集索引)',
  `user_id` BIGINT NOT NULL COMMENT '用户ID',
  `order_time` DATETIME NOT NULL COMMENT '下单时间',
  `order_amount` DECIMAL(10,2) NOT NULL COMMENT '订单金额',
  `order_status` TINYINT NOT NULL COMMENT '订单状态',
  PRIMARY KEY (`order_id`), -- 聚集索引
  KEY `idx_user_time` (`user_id`,`order_time`) -- 非聚集联合索引
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;

场景 1:适合用聚集索引的场景
如果运营需要查询「订单 ID 为 100001 的订单的所有信息」,SQL 如下:

SELECT * FROM order_info WHERE order_id = 100001;
  • 此时用聚集索引(order_id)是最优选择:直接通过主键定位到叶子节点的整行数据,不需要任何额外操作,效率最高

场景 2:适合用非聚集索引(覆盖索引)的场景
如果运营需要查询「用户 ID 为 1001 的所有订单的下单时间和订单金额」,SQL 如下:

SELECT order_time, order_amount FROM order_info WHERE user_id = 1001;
  • 此时我们创建的非聚集联合索引idx_user_time (user_id, order_time),加上 InnoDB 默认存储的主键order_id,但我们的查询字段是order_time和order_amount—— 这里可以优化索引,改成idx_user_time_amount (user_id, order_time, order_amount)
  • 优化后,这个索引就覆盖了查询的所有字段,MySQL 直接从非聚集索引中返回数据,不需要回表,效率远高于用聚集索引查询

场景 3:适合用非聚集索引(需要回表)的场景
如果运营需要查询「用户 ID 为 1001 的所有订单的完整信息」,SQL 如下:

SELECT * FROM order_info WHERE user_id = 1001;
  • 此时非聚集索引idx_user_time只能提供user_id、order_time和order_id,无法覆盖所有字段,需要回表:
    1.先通过idx_user_time找到所有user_id=1001的行,拿到对应的order_id
    2.再用order_id去聚集索引中查询整行数据
  • 但这个效率依然远高于用聚集索引全表扫描(聚集索引只能按 order_id 排序,无法快速找到 user_id=1001 的行)

五、实战建议

  1. 聚集索引的选择:尽量用自增主键
    自增主键的插入是顺序的,不会导致聚集索引的页分裂,插入效率更高;如果用 UUID 作为主键,插入时会随机定位位置,导致大量页分裂,性能下降
  2. 非聚集索引的设计:优先考虑覆盖索引
    对于高频查询,尽量创建包含查询所需所有字段的联合索引,避免回表
  3. 不要滥用非聚集索引
    非聚集索引会占用额外的磁盘空间,同时会降低插入 / 更新 / 删除的效率(因为需要维护索引树),只给高频查询的字段创建索引
Logo

葡萄城是专业的软件开发技术和低代码平台提供商,聚焦软件开发技术,以“赋能开发者”为使命,致力于通过表格控件、低代码和BI等各类软件开发工具和服务

更多推荐