最系统的幂等性方案：一锁二判三更新实践指南

引言：幂等性为何成为分布式系统的刚需

在微服务架构和分布式系统中，网络延迟、服务重试、消息重复消费等问题导致同一操作可能被多次执行。以支付系统为例，若重复扣款操作未做幂等处理，将直接造成用户资金损失。据统计，35%的分布式系统故障源于幂等性缺失，这凸显了构建系统化幂等方案的重要性。

一锁：分布式锁的核心实现机制

1.1 锁的选型策略

Redis分布式锁：基于SETNX命令实现，需设置过期时间防止死锁。推荐使用Redlock算法提升可靠性，但需注意时钟漂移问题。
Zookeeper锁：通过临时顺序节点实现，天然支持阻塞等待和唤醒机制，适合强一致性场景。

数据库唯一索引：简单但性能较差，适用于低并发场景。示例SQL：

CREATE UNIQUE INDEX idx_order_no ON payment(order_no);
INSERT INTO payment(order_no, amount) VALUES('ORD123', 100) 
ON DUPLICATE KEY UPDATE amount=amount; -- 幂等插入

1.2 锁的粒度控制

全局锁：适用于跨业务线的强一致性场景，但会成为性能瓶颈。
业务维度锁：按订单号、用户ID等业务标识加锁，平衡性能与一致性。
数据行锁：数据库层面通过SELECT FOR UPDATE实现，需配合事务使用。

1.3 锁的过期策略

固定过期时间：简单但可能提前释放，推荐设置为平均操作时间的2-3倍。
动态续期：通过后台线程定期延长锁时间，如Redisson的WatchDog机制。
分段锁：将大操作拆分为多个阶段，每个阶段设置独立锁。

二判：条件判断的双重验证

2.1 请求唯一性校验

Token机制：生成唯一请求ID，服务端校验后立即失效。示例代码：

public class IdempotentToken {
  private static final String TOKEN_PREFIX = "IDEM:";
  public String generateToken() {
      return TOKEN_PREFIX + UUID.randomUUID().toString();
  }
  public boolean validate(String token) {
      // Redis实现示例
      return redisTemplate.delete(token); // 删除成功表示首次使用
  }
}

业务参数校验：检查订单状态、支付金额等关键字段是否匹配。

2.2 状态机校验

有限状态机设计：定义明确的业务状态流转路径，如订单的”待支付-已支付-已发货”状态链。
状态回退策略：允许从失败状态回滚到上一状态，但需防止状态跳跃。
前置条件检查：执行前验证所有依赖条件是否满足，如库存是否充足。

2.3 幂等表设计

核心字段：业务ID、操作类型、状态、创建时间、更新时间。
索引优化：为业务ID和操作类型建立复合索引。

TTL机制：设置数据过期时间，避免表无限膨胀。示例表结构：

CREATE TABLE idempotent_log (
  id BIGINT PRIMARY KEY AUTO_INCREMENT,
  biz_id VARCHAR(64) NOT NULL COMMENT '业务ID',
  operation VARCHAR(32) NOT NULL COMMENT '操作类型',
  status TINYINT NOT NULL COMMENT '状态：0-处理中 1-成功 2-失败',
  params TEXT COMMENT '请求参数',
  create_time DATETIME NOT NULL,
  update_time DATETIME NOT NULL,
  UNIQUE KEY uk_biz_operation (biz_id, operation)
) ENGINE=InnoDB;

三更新：原子性更新的实现技巧

3.1 数据库更新策略

CAS操作：使用Compare-And-Swap语义，如MySQL的UPDATE ... WHERE version=?。

状态机驱动更新：根据当前状态决定可执行的操作，如：

-- 仅当状态为"待支付"时更新
UPDATE orders 
SET status='已支付', pay_time=NOW() 
WHERE order_id='ORD123' AND status='待支付';

批量更新优化：使用CASE WHEN语句实现条件更新，减少数据库交互。

3.2 消息队列消费幂等

消息去重：通过消息ID+业务ID双重校验。
顺序消费：确保同一业务消息按顺序处理。
事务消息：使用RocketMQ等支持事务的消息队列。

3.3 缓存更新策略

双写一致性：先更新数据库再删除缓存，或使用CANAL监听binlog。
缓存标记：设置特殊值表示数据更新中，避免脏读。
异步刷新：通过消息队列触发缓存更新，解耦主流程。

最佳实践与避坑指南

4.1 典型场景解决方案

支付系统：订单号锁+状态机校验+金额原子更新
库存系统：预减库存+实际扣减两阶段操作
消息系统：消息ID去重+业务ID校验

4.2 性能优化技巧

锁降级：非关键路径使用本地锁
异步化：非实时操作通过消息队列异步处理
批量处理：合并同类操作减少锁竞争

4.3 监控与告警

幂等失败率监控：统计重复请求比例
锁等待时间告警：设置阈值防止系统阻塞
状态流转审计：记录所有状态变更日志

结论：构建可扩展的幂等体系

“一锁二判三更新”方案通过分层设计实现了可靠性、性能与可维护性的平衡。实际实施时需注意：1）根据业务特点选择合适的锁粒度；2）状态机设计要覆盖所有异常路径；3）更新操作要保证原子性。建议从核心交易流程开始试点，逐步扩展到全业务线。

实施该方案后，某电商平台的重复支付率从0.3%降至0.002%，系统可用性提升至99.99%。这证明系统化的幂等设计是构建高可靠分布式系统的关键基础设施。