优惠券系统从入门到精通（十四）：高并发场景下的性能优化与容灾设计

一、引言：高并发场景的挑战与核心目标

在电商大促、节日营销等场景下，优惠券系统的并发访问量可能激增至日常的10倍以上。此时，系统需同时满足三个核心目标：低延迟响应（用户领取/核销操作在200ms内完成）、数据一致性（避免超发或重复核销）、高可用性（系统全年可用率≥99.99%）。本文将从数据库、缓存、分布式架构和容灾设计四个层面，系统性拆解性能优化方案。

二、数据库层优化：读写分离与分库分表

1. 读写分离架构设计

问题：主库写入（如优惠券发放）与读取（如查询可用券）混合，导致主库CPU负载过高。
解决方案：

主从复制：主库处理写入，从库处理查询。通过MySQL的GTID复制或PostgreSQL的逻辑复制实现数据同步。
中间件路由：使用ShardingSphere或MyCat根据SQL类型自动路由到主库或从库。例如：
```sql
— 写入操作路由到主库
INSERT INTO coupon_user (user_id, coupon_id) VALUES (1001, 2001);

— 查询操作路由到从库
SELECT * FROM coupon_user WHERE user_id = 1001;

**效果**：主库写入压力降低50%以上，从库可横向扩展支持更高并发查询。
### 2. 分库分表策略
**问题**：单表数据量超过千万级时，查询性能急剧下降。
**解决方案**：
- **水平分表**：按用户ID哈希分表（如`coupon_user_00`~`coupon_user_99`），每个分表数据量控制在500万条以内。
- **垂直分库**：将优惠券模板表（`coupon_template`）与用户优惠券表（`coupon_user`）分离到不同数据库，避免跨表JOIN。
**代码示例**（ShardingSphere配置）：
```yaml
# 分片规则配置
spring:
  shardingsphere:
    datasource:
      names: ds0,ds1
    sharding:
      tables:
        coupon_user:
          actual-data-nodes: ds$->{0..1}.coupon_user_$->{0..99}
          table-strategy:
            inline:
              sharding-column: user_id
              algorithm-expression: coupon_user_$->{user_id % 100}

效果：单表查询性能提升3倍，写入吞吐量提升2倍。

三、缓存层设计：多级缓存与防击穿策略

1. 多级缓存架构

问题：单级缓存（如Redis）在高并发下可能成为瓶颈。
解决方案：

本地缓存：使用Caffeine或Guava Cache缓存热点数据（如用户常用优惠券），TTL设为5分钟。

分布式缓存：Redis集群缓存全局数据（如优惠券模板），采用Hash Tag保证同一优惠券的键分布在同一节点。

// 本地缓存示例（Caffeine）
LoadingCache<Long, CouponTemplate> localCache = Caffeine.newBuilder()
  .maximumSize(1000)
  .expireAfterWrite(5, TimeUnit.MINUTES)
  .build(key -> redisTemplate.opsForValue().get("coupon_template:" + key));

效果：本地缓存命中率达70%以上，Redis请求量减少60%。

2. 缓存击穿防护

问题：热点优惠券过期时，大量请求直接穿透到数据库。
解决方案：

互斥锁：在获取缓存前先加分布式锁（Redisson），仅允许一个线程从数据库加载数据。

// Redisson分布式锁示例
RLock lock = redissonClient.getLock("coupon_lock:" + couponId);
try {
  lock.lock(10, TimeUnit.SECONDS);
  CouponTemplate template = cache.get(couponId);
  if (template == null) {
      template = loadFromDB(couponId); // 从数据库加载
      cache.put(couponId, template);
  }
} finally {
  lock.unlock();
}

逻辑过期：缓存中存储数据和过期时间，后台线程异步刷新缓存，前端读取时返回旧数据但标记“正在更新”。
效果：缓存击穿概率降低至0.1%以下。

四、分布式架构：异步化与限流降级

1. 异步化处理

问题：同步发放优惠券导致接口响应时间过长。
解决方案：

消息队列：使用RocketMQ或Kafka解耦发放逻辑，用户请求仅写入消息队列，后续由消费者异步处理。

// 发送优惠券发放消息
Message<CouponIssueRequest> message = MessageBuilder.withPayload(request)
  .setHeader("couponId", couponId)
  .build();
rocketMQTemplate.syncSend("coupon_issue_topic", message);

补偿机制：记录异步处理失败的消息，通过定时任务重试（最多3次）。
效果：接口响应时间从500ms降至100ms以内。

2. 限流与降级

问题：突发流量导致系统崩溃。
解决方案：

Sentinel限流：对优惠券领取接口设置QPS限流（如1000/秒），超过阈值时返回“系统繁忙”。
```java
// Sentinel注解限流
@SentinelResource(value = “issueCoupon”, blockHandler = “handleBlock”)
public Result issueCoupon(Long userId, Long couponId) {
// 发放逻辑
}

public Result handleBlock(Long userId, Long couponId, BlockException ex) {
return Result.fail(“系统繁忙，请稍后再试”);
}

- **熔断降级**：当依赖服务（如用户服务）不可用时，快速失败并返回默认优惠券。
**效果**：系统在2000QPS压力下仍能稳定运行。
## 五、容灾设计：数据备份与快速恢复
### 1. 数据备份策略
**问题**：数据库故障导致数据丢失。
**解决方案**：
- **实时备份**：使用MySQL的binlog或PostgreSQL的WAL日志实时同步到异地机房。
- **定期全量备份**：每天凌晨3点执行全量备份，保留最近7天的备份文件。
```bash
# MySQL全量备份示例
mysqldump -u root -p coupon_db > /backup/coupon_db_$(date +%Y%m%d).sql

2. 快速恢复机制

问题：主库故障时切换时间过长。
解决方案：

主从切换：通过Keepalived+VIP实现自动故障转移，切换时间控制在30秒内。
多活架构：在两个城市部署独立集群，通过Unitization技术实现数据同步，故障时可秒级切换。
效果：RTO（恢复时间目标）从小时级降至分钟级。

六、总结与建议

渐进式优化：先解决数据库瓶颈，再优化缓存和分布式架构，最后完善容灾设计。
全链路压测：使用JMeter或Gatling模拟高并发场景，验证系统瓶颈。
监控告警：通过Prometheus+Grafana监控QPS、响应时间、错误率等指标，设置阈值告警。

通过以上方案，优惠券系统可轻松支撑百万级并发，同时保证数据一致性和高可用性。实际开发中需根据业务规模和成本预算灵活调整架构。