一、系统架构设计：微服务拆分与解耦

1.1 服务边界划分

优惠券系统的核心功能可拆分为四大微服务：

优惠券模板服务：管理优惠券规则（满减、折扣、通用券等）、有效期、适用范围等元数据。采用领域驱动设计（DDD），将模板属性抽象为值对象（Value Object），如DiscountRule、ValidityPeriod。
优惠券发放服务：处理用户领券逻辑，支持批量发放、定向发放等场景。需与用户系统、营销活动系统交互，通过事件驱动架构（EDA）解耦依赖。
优惠券核销服务：校验优惠券有效性（是否过期、是否满足使用条件），与订单系统深度集成。采用异步消息（如Kafka）通知订单系统扣减优惠金额，避免同步调用超时。
优惠券分析服务：实时统计优惠券发放量、使用率、ROI等指标，为运营提供数据支持。基于Flink构建流式计算，将结果写入ClickHouse供BI查询。

1.2 通信协议选择

同步通信：gRPC用于内部服务调用，支持HTTP/2多路复用，降低延迟。
异步通信：Kafka处理高并发事件（如领券成功通知），分区数按业务场景配置（如用户ID哈希分区）。
API网关：采用Spring Cloud Gateway实现路由、限流、鉴权，支持JWT令牌验证。

二、数据模型设计：高并发写入的挑战

2.1 数据库分库分表

用户优惠券表：按用户ID哈希分库，每个库再按优惠券ID范围分表。例如，10个库、每库100张表，支持亿级数据存储。
模板表：单库单表，因模板更新频率低，读多写少。
分布式ID生成：使用雪花算法（Snowflake）生成优惠券ID，包含时间戳、机器ID和序列号，确保全局唯一。

2.2 缓存策略

多级缓存：本地缓存（Caffeine）存热点数据（如用户近期领取的券），分布式缓存（Redis Cluster）存全量数据。
缓存穿透防护：对不存在的优惠券ID返回空对象缓存，设置短过期时间（如1分钟）。
缓存雪崩预防：随机化缓存过期时间，避免大量键同时失效。

三、分布式事务与一致性保障

3.1 TCC模式实现

以领券场景为例：

// Try阶段：预占库存
public boolean tryReserve(Long templateId, int count) {
    return templateStockDao.decreaseStock(templateId, count) > 0;
}
// Confirm阶段：正式发放
public void confirmIssue(Long userId, List<Long> couponIds) {
    couponDao.batchInsert(userId, couponIds);
}
// Cancel阶段：回滚库存
public void cancelReserve(Long templateId, int count) {
    templateStockDao.increaseStock(templateId, count);
}

通过Seata框架实现TCC模式，确保最终一致性。

3.2 异步补偿机制

对核销失败的操作，记录补偿日志并定时扫描重试。例如：

CREATE TABLE compensation_log (
    id BIGINT PRIMARY KEY,
    coupon_id BIGINT,
    status TINYINT, -- 0:待处理, 1:成功, 2:失败
    retry_count INT,
    create_time DATETIME
);

四、性能优化：支撑亿级请求

4.1 读写分离

主库写，从库读。通过MySQL中间件（如MyCat）实现自动路由。
异步化写操作：如优惠券发放日志写入MQ，由消费者批量入库。

4.2 索引优化

用户优惠券表索引：(user_id, status)用于查询用户可用券，(coupon_id)用于核销校验。
模板表索引：(status, start_time, end_time)用于查询有效模板。

4.3 批量操作

批量发放：一次请求支持发放N张券到M个用户，通过INSERT INTO ... VALUES (...), (...)语法减少数据库交互。
批量核销：订单系统传递多个优惠券ID，服务端批量校验。

五、容灾与高可用设计

5.1 多活部署

城市级容灾：在三个以上城市部署服务，通过DNS智能解析实现流量切换。
数据同步：使用MySQL Group Replication实现跨机房数据同步，延迟控制在100ms内。

5.2 限流与降级

网关层限流：对领券接口按用户ID限流（如10次/分钟）。
服务降级：核销服务故障时，返回“系统繁忙，请稍后重试”，并记录日志供后续补偿。

六、监控与运维

6.1 指标监控

Prometheus采集QPS、延迟、错误率等指标。
Grafana配置告警规则，如“领券接口P99延迟>500ms”触发钉钉告警。

6.2 日志追踪

全链路日志：通过SkyWalking追踪请求链路，定位性能瓶颈。
业务日志：记录优惠券发放、核销的关键操作，便于审计。

七、实战经验总结

灰度发布：新优惠券规则先在小流量用户群测试，观察使用率和系统负载。
压测验证：使用JMeter模拟万级QPS，验证分库分表、缓存策略的有效性。
数据归档：对已过期优惠券定期归档到冷存储（如OSS），降低主库压力。

构建亿级优惠券系统需兼顾功能完整性与系统稳定性。通过微服务拆分、数据分片、异步化处理等技术手段，可实现高并发、低延迟的目标。实际开发中，需持续监控系统指标，结合业务场景动态调整策略，方能应对电商大促的流量洪峰。

从零到亿：构建亿级电商微服务优惠劵系统的技术实践与优化策略

一、系统架构设计：微服务拆分与解耦

1.1 服务边界划分

1.2 通信协议选择

二、数据模型设计：高并发写入的挑战

2.1 数据库分库分表

2.2 缓存策略

三、分布式事务与一致性保障

3.1 TCC模式实现

3.2 异步补偿机制

四、性能优化：支撑亿级请求

4.1 读写分离

4.2 索引优化

4.3 批量操作

五、容灾与高可用设计

5.1 多活部署

5.2 限流与降级

六、监控与运维

6.1 指标监控

6.2 日志追踪

七、实战经验总结