一、索引基础与数据结构

1.1 索引的本质与分类

索引是数据库系统中用于加速数据检索的特殊数据结构，其核心价值在于将随机I/O转化为顺序I/O。根据存储结构可分为B+树索引、哈希索引、全文索引等类型，其中B+树因其优秀的区间查询性能成为主流选择。

以InnoDB引擎为例，其聚簇索引（Clustered Index）直接存储数据行，二级索引（Secondary Index）则存储主键值。这种设计导致回表操作（通过二级索引查找主键，再通过主键定位数据）成为性能优化的关键点。

1.2 B+树与B树的本质差异

B+树通过以下特性实现高效查询：

非叶子节点仅存储键值：相比B树减少存储空间占用
叶子节点链表连接：支持高效范围查询
更高扇出率：单节点可存储更多键值，降低树高度

以查询ID=1000的记录为例：

-- 假设树高度为3，每次I/O读取16KB数据
-- B+树仅需3次I/O即可定位数据
-- B树可能需要更多I/O且无法直接支持范围查询

二、索引创建与优化策略

2.1 索引选择黄金法则

创建索引需遵循”三高两低”原则：

高选择性：区分度高的列（如用户ID）
高频查询：WHERE、JOIN、ORDER BY高频使用的列
高基数性：唯一值数量多的列
低更新频率：频繁更新的列维护成本高
低存储开销：避免在TEXT等大字段上建索引

2.2 复合索引设计艺术

复合索引（联合索引）遵循最左前缀原则，其设计需考虑：

-- 示例：创建订单查询复合索引
CREATE INDEX idx_order_query ON orders(customer_id, order_date, status);

该索引可支持以下查询：

WHERE customer_id = ?
WHERE customer_id = ? AND order_date > ?
WHERE customer_id = ? AND order_date = ? AND status = ?

但无法高效支持：

WHERE order_date = ?（缺少最左前缀）
WHERE status = ?（同上）

2.3 索引失效典型场景

以下情况会导致索引失效：

隐式类型转换：

-- user_id为varchar类型，但使用数字查询
SELECT * FROM users WHERE user_id = 123; 
-- 实际执行：CAST(user_id AS SIGNED) = 123

函数操作：

-- 对索引列使用函数
SELECT * FROM orders WHERE DATE(create_time) = '2023-01-01';

OR条件陷阱：

-- 当OR条件中存在非索引列时
SELECT * FROM products WHERE name = '手机' OR description LIKE '%促销%';

三、索引性能分析与调优

3.1 执行计划深度解读

通过EXPLAIN分析查询性能：

EXPLAIN SELECT * FROM customers 
WHERE province = '北京' AND city = '朝阳' ORDER BY create_time DESC;

关键字段解析：

type：ALL（全表扫描）→ range（范围扫描）→ ref（非唯一索引）→ eq_ref（唯一索引）→ const（常量）
key：实际使用的索引
rows：预估扫描行数
Extra：Using filesort（需优化）、Using temporary（需警惕）

3.2 索引统计信息维护

索引统计信息的准确性直接影响优化器决策，可通过以下命令更新：

ANALYZE TABLE orders; -- 重新收集统计信息

对于数据量大的表，建议设置定期维护任务：

-- 创建事件定期更新统计信息
CREATE EVENT update_stats_event
ON SCHEDULE EVERY 1 DAY
DO
  ANALYZE TABLE orders, order_items;

3.3 索引监控体系构建

建立完善的监控体系需关注：

索引使用率：

SELECT 
table_name, 
index_name, 
rows_selected / (rows_selected + rows_inserted + rows_updated) AS usage_ratio
FROM performance_schema.table_io_waits_summary_by_index_usage
WHERE index_name IS NOT NULL;

索引大小监控：

SELECT 
table_schema, 
table_name, 
index_name, 
round(index_length/1024/1024, 2) AS size_mb
FROM information_schema.statistics
ORDER BY index_length DESC;

四、高级索引技术实践

4.1 覆盖索引优化

通过索引包含查询所需的所有字段，避免回表操作：

-- 原始查询（需回表）
SELECT id, name FROM users WHERE email = 'test@example.com';
-- 优化后（覆盖索引）
ALTER TABLE users ADD INDEX idx_email_name (email, name);
SELECT name FROM users WHERE email = 'test@example.com';

4.2 索引下推（ICP）

MySQL 5.6+支持的索引下推技术，将WHERE条件过滤下推到存储引擎层：

-- 原始执行流程：
-- 1. 使用索引定位到主键
-- 2. 回表获取数据行
-- 3. 应用WHERE条件过滤
-- ICP优化后：
-- 1. 使用索引定位到主键
-- 2. 在索引层应用可下推的WHERE条件
-- 3. 仅回表符合条件的记录

4.3 自适应哈希索引

InnoDB引擎自动为频繁访问的索引页建立哈希索引，可通过以下参数调整：

[mysqld]
innodb_adaptive_hash_index = ON  # 默认开启
innodb_adaptive_hash_index_parts = 8  # 哈希索引分区数

五、面试常见问题解析

5.1 为什么MySQL选择B+树而非B树？

核心差异在于：

查询效率：B+树所有数据都存储在叶子节点，查询时间复杂度固定为O(log n)
范围查询：叶子节点链表结构支持高效范围扫描
磁盘友好：B+树非叶子节点不存储数据，单次I/O可加载更多键值

5.2 索引越多越好吗？

过度索引会导致：

写入性能下降：每个索引都需要维护
存储空间增加：索引数据可能超过原始数据
优化器选择困难：过多索引可能导致优化器选择次优执行计划

5.3 如何定位未使用索引？

通过慢查询日志和性能模式分析：

-- 查询未使用索引的表
SELECT 
  s.table_schema, 
  s.table_name, 
  s.index_name
FROM information_schema.statistics s
LEFT JOIN performance_schema.table_io_waits_summary_by_index_usage u
  ON s.table_schema = u.object_schema 
  AND s.table_name = u.object_name 
  AND s.index_name = u.index_name
WHERE u.index_name IS NULL;

结语

MySQL索引优化是系统性能调优的核心领域，掌握其原理与实践技巧对开发者和DBA至关重要。本文通过系统化的知识梳理和实战案例分析，帮助读者构建完整的索引知识体系。建议结合具体业务场景进行实践验证，持续优化索引策略，最终实现查询性能的质的飞跃。

MySQL索引面试全解析：18个高频问题深度拆解