一、缓存穿透：当”不存在”成为攻击入口

1.1 问题本质与危害

缓存穿透指查询一个数据库中不存在的数据时，由于缓存层未命中，所有请求直接穿透至数据库层。在恶意攻击场景下，攻击者通过高频请求虚构键（如连续递增的ID），可瞬间压垮数据库服务。某电商平台曾因未做空值缓存，导致促销期间数据库CPU飙升至100%，持续15分钟服务不可用。

1.2 防御方案对比

方案一：空值缓存策略

def get_user_info(user_id):
    cache_key = f"user:{user_id}"
    data = redis.get(cache_key)
    if data is None:
        db_data = query_db(user_id)  # 数据库查询
        if db_data is None:
            # 设置空值缓存，TTL设为60秒
            redis.setex(cache_key, 60, "NULL")
            return None
        else:
            # 正常数据缓存，TTL设为3600秒
            redis.setex(cache_key, 3600, json.dumps(db_data))
            return db_data
    elif data == "NULL":
        return None
    else:
        return json.loads(data)

该方案通过设置短周期空值缓存，既防止无效查询穿透，又避免长期占用内存。但需注意：空值缓存的TTL设置需权衡安全性与数据实时性，建议根据业务特性动态调整。

方案二：布隆过滤器优化

布隆过滤器通过位数组和哈希函数实现高效键值过滤，其核心优势在于：

内存占用极低：10亿数据仅需约1.2GB内存
查询性能稳定：O(1)时间复杂度
允许可控误判：可通过调整哈希函数数量控制误判率

某金融系统采用Redis+布隆过滤器方案后，缓存穿透率下降99.7%，数据库查询量减少85%。实施时需注意：

过滤器容量需预留20%余量应对数据增长
定期同步数据库变更至布隆过滤器
误判场景需配合空值缓存使用

二、缓存击穿：热点数据的并发危机

2.1 典型场景分析

当热点键（如明星微博、秒杀商品）缓存过期时，大量并发请求同时触发数据库查询，导致瞬时QPS激增。某直播平台在明星开播瞬间，单键并发查询量突破50万/秒，直接引发数据库连接池耗尽。

2.2 解决方案实践

方案一：永不过期策略

// 后台刷新线程示例
@Scheduled(fixedRate = 60000)
public void refreshHotKey() {
    String hotKey = "hot_product:1001";
    String cachedValue = redis.get(hotKey);
    if (cachedValue != null) {
        String freshValue = dbQuery(1001); // 数据库查询
        if (!freshValue.equals(cachedValue)) {
            redis.set(hotKey, freshValue); // 非过期设置
        }
    }
}

该方案通过后台线程定期刷新热点数据，避免过期时间触发并发问题。需建立热点键识别机制，可通过：

实时监控缓存命中率
分析请求日志识别高频键
使用LFU算法自动发现热点

方案二：互斥锁控制

def get_data_with_lock(key):
    lock_key = f"lock:{key}"
    # 尝试获取锁，超时时间50ms
    if redis.set(lock_key, "1", nx=True, ex=50):
        try:
            data = query_db(key)  # 数据库查询
            redis.setex(key, 3600, data)  # 更新缓存
            return data
        finally:
            redis.delete(lock_key)  # 释放锁
    else:
        # 未获取锁时短暂重试
        time.sleep(0.01)
        return redis.get(key)

互斥锁方案需注意：

锁超时时间应大于业务处理时间
配合重试机制提高成功率
分布式环境下需使用Redlock等算法保证锁可靠性

三、缓存雪崩：集体失效的系统级灾难

3.1 灾难复现与影响

当大量缓存键设置相同过期时间时，在过期时刻会形成请求洪峰。某电商大促期间，因配置错误导致所有商品缓存同时过期，数据库瞬间承受超过平时500倍的查询压力，造成全省范围服务中断23分钟。

3.2 防御体系构建

方案一：随机过期时间

# 设置带随机偏移的过期时间（Lua脚本示例）
local key = KEYS[1]
local base_ttl = tonumber(ARGV[1])
local random_offset = math.random(0, base_ttl * 0.2)
redis.call('SETEX', key, base_ttl + random_offset, ARGV[2])

通过为每个键添加0-20%的随机偏移量，可使缓存失效时间均匀分布。某物流系统实施后，缓存雪崩概率降低92%，数据库峰值压力下降76%。

方案二：多级缓存架构

典型三级缓存架构：

本地缓存：Caffeine/Guava Cache，TTL设为10秒
分布式缓存：Redis集群，TTL设为5分钟
持久化存储：MySQL/HBase

请求处理流程：

客户端 → 本地缓存 → 分布式缓存 → 数据库
       ↑           ↑           ↑
       命中返回    命中返回    查询更新

该架构通过：

本地缓存吸收90%以上请求
分布式缓存处理热点数据
数据库作为最终数据源
实现QPS从10万级提升至百万级

四、综合优化建议

监控告警体系：建立缓存命中率、穿透率、大key分布等指标监控，设置阈值告警
容量规划：根据业务特性预估缓存容量，建议预留30%余量
数据分片：对超大键进行分片存储，避免单键过大影响性能
异步刷新：对非实时数据采用消息队列异步更新缓存
降级策略：设计缓存服务降级方案，如返回默认值或旧数据

某在线教育平台通过实施上述方案后，系统可用性提升至99.99%，数据库负载下降82%，运维成本降低65%。缓存技术的深度优化需要结合业务特性持续迭代，建议每季度进行压测验证与参数调优。

Redis缓存技术深度解析：穿透、击穿与雪崩的应对策略