一、问题现象与影响

在MySQL运维过程中，”连接数只增不减”是一个典型且危险的现象。具体表现为：SHOW PROCESSLIST命令显示的连接数持续上升，即使业务流量平稳或下降时，活跃连接数仍不减少。这种异常会导致：

资源耗尽：每个连接消耗约256KB内存（默认配置），连接数突破max_connections限制后，新连接会被拒绝，导致业务中断。
性能下降：大量连接导致线程缓存失效，CPU资源浪费在上下文切换上，查询响应时间显著增加。
连锁故障：连接数堆积可能引发OOM（内存溢出），进而导致MySQL进程崩溃。

二、深层原因分析

1. 连接泄漏（Connection Leak）

表现：应用程序获取连接后未正确关闭，导致连接长期驻留。常见场景包括：

异常处理路径遗漏connection.close()
使用try-with-resources但未声明AutoCloseable
连接池配置了testOnBorrow但未设置validationQuery

诊断方法：

-- 查看连接创建时间与当前时间差
SELECT id, host, db, command, time, state, info 
FROM information_schema.processlist 
WHERE time > 60 ORDER BY time DESC;

若存在大量time值持续增长的连接，且command为Sleep状态，即可判定为泄漏。

2. 连接池配置不当

典型问题：

最大连接数过大：maxPoolSize超过MySQL的max_connections（默认151）
空闲连接超时过长：maxIdleTime设置大于MySQL的wait_timeout（默认28800秒）
测试查询失效：未配置validationQuery导致失效连接被复用

优化建议：

# HikariCP示例配置
spring.datasource.hikari.maximum-pool-size=50
spring.datasource.hikari.idle-timeout=30000
spring.datasource.hikari.connection-test-query=SELECT 1

3. 事务未提交

场景：

显式事务开启后未提交或回滚
自动提交被禁用（autocommit=0）且未显式管理事务

监控手段：

-- 查看长时间运行的事务
SELECT * FROM information_schema.innodb_trx 
WHERE trx_started < NOW() - INTERVAL 30 SECOND;

4. 持久化连接（Persistent Connection）滥用

PHP等语言中mysql_pconnect()的误用会导致连接无法释放。现代应用应避免使用此类API，改用短连接+连接池方案。

三、解决方案体系

1. 紧急处理措施

步骤1：终止异常连接

-- 终止运行超过1小时的Sleep连接
SELECT CONCAT('KILL ', id, ';') 
FROM information_schema.processlist 
WHERE time > 3600 AND command = 'Sleep' INTO OUTFILE '/tmp/kill.sql';
SOURCE /tmp/kill.sql;

步骤2：动态调整参数

-- 临时扩大连接数限制（需谨慎）
SET GLOBAL max_connections = 1000;
-- 缩短空闲连接超时
SET GLOBAL wait_timeout = 300;

2. 长期优化方案

架构层面

实施读写分离：通过ProxySQL等中间件分流查询
引入连接池：推荐HikariCP（性能优于DBCP/C3P0）
采用服务网格：在K8s环境中通过Sidecar管理连接

代码层面

强制关闭策略：

// Java示例：使用try-with-resources确保关闭
try (Connection conn = dataSource.getConnection();
   Statement stmt = conn.createStatement()) {
  // 业务逻辑
} catch (SQLException e) {
  // 异常处理
}

连接有效性检查：

# Python示例：使用连接测试查询
def get_connection():
  conn = pymysql.connect(...)
  try:
      with conn.cursor() as cursor:
          cursor.execute("SELECT 1")
          if cursor.fetchone()[0] != 1:
              raise Exception("Invalid connection")
  except:
      conn.close()
      raise
  return conn

监控体系

Prometheus+Grafana监控：

# prometheus.yml配置示例
scrape_configs:
- job_name: 'mysql'
  static_configs:
    - targets: ['mysql:9104']
  metrics_path: '/metrics'

关键监控指标：

mysql_global_status_threads_connected
mysql_global_status_aborted_connects
mysql_global_variables_max_connections

四、预防机制建设

压力测试：使用sysbench模拟连接泄漏场景

sysbench --db-driver=mysql --threads=100 \
--mysql-host=127.0.0.1 --mysql-port=3306 \
--mysql-user=root --mysql-password=test \
--oltp-table-size=1000000 --oltp-read-only=off \
--report-interval=10 --max-requests=0 \
--time=300 /usr/share/sysbench/oltp_read_write.lua run

自动化告警：设置连接数超过阈值（如max_connections*80%）时触发告警

定期审计：每月执行连接健康检查脚本

-- 连接健康检查存储过程
DELIMITER //
CREATE PROCEDURE check_connections()
BEGIN
 SELECT COUNT(*) AS total_connections,
        SUM(IF(time > 300, 1, 0)) AS stale_connections,
        SUM(IF(state LIKE '%Lock%', 1, 0)) AS locked_connections
 FROM information_schema.processlist;
END //
DELIMITER ;

五、典型案例分析

案例1：某电商大促连接激增

现象：促销期间连接数从200飙升至2000，系统崩溃
原因：
- 连接池maxPoolSize设置为1000，但MySQLmax_connections为800
- 未配置removeAbandoned策略，导致泄漏连接堆积

解决方案：

调整连接池参数：

spring.datasource.hikari.maximum-pool-size=400
spring.datasource.hikari.remove-abandoned=true
spring.datasource.hikari.remove-abandoned-timeout=180

升级MySQL至5.7+版本，启用线程池插件

案例2：微服务架构连接泄漏

现象：服务A的连接数每周增长10%，三个月后达到上限
原因：
- 分布式事务处理中，XA连接未正确释放
- 熔断机制触发后，连接未被回收