一、为什么需要Nginx限流？

在分布式系统架构中，突发流量和恶意请求常导致服务雪崩。某电商平台曾因促销活动引发每秒10万+的请求洪峰，未做限流的API接口出现50%以上的错误率，直接经济损失超百万元。Nginx的limit_req模块通过精确的请求速率控制，能有效预防此类问题。

该模块自0.7.21版本引入，基于令牌桶算法实现流量整形，支持三种限流维度：

客户端IP（$binary_remote_addr）
用户身份（$cookie_user等自定义变量）
组合维度（如IP+User-Agent）

二、核心配置参数解析

1. 共享内存区定义（limit_req_zone）

http {
    limit_req_zone $binary_remote_addr 
                   zone=req_limit:10m 
                   rate=10r/s;
}

key选择：推荐使用$binary_remote_addr（4字节）而非$remote_addr（15字节），可节省70%内存
内存规划：10MB约可存储16万个IP的计数状态，按QPS 10万计算，建议配置：
```
内存(MB) = 状态数 / 16000
```
速率单位：支持r/s（秒级）和r/m（分钟级），生产环境建议精确到小数（如1.5r/s）

2. 限流规则应用（limit_req）

server {
    location /api/ {
        limit_req zone=req_limit 
                 burst=20 
                 nodelay;
        proxy_pass http://backend;
    }
}

burst参数：允许突发请求的缓冲队列长度。当瞬时请求超过rate时，超出部分进入队列等待处理
nodelay选项：立即处理队列中的请求（默认delay=0），适合对延迟敏感的API服务
拒绝策略：超过限制的请求返回503状态码，可通过error_page自定义响应

三、进阶配置方案

1. 多维度限流策略

# 按用户ID限流（需前端设置cookie）
map $cookie_user $user_id {
    default "";
    ~*^user_([0-9]+)$ $1;
}
limit_req_zone $user_id zone=user_limit:5m rate=5r/s;

2. 白名单机制

geo $white_ip {
    default 0;
    10.0.0.0/8 1;
    192.168.1.1 1;
}
map $white_ip $limit_key {
    0 $binary_remote_addr;
    1 "";
}
limit_req_zone $limit_key zone=white_limit:1m rate=100r/s;

3. 动态限流调整

结合监控系统实现动态限流：

通过API接口修改limit_req_zone的rate值
使用Lua脚本实现更复杂的限流逻辑
对接Prometheus+Grafana实现可视化调参

四、压力测试与调优

1. 测试工具选择

推荐使用wrk替代ab工具：

wrk -t4 -c100 -d30s http://example.com/api

-t：线程数（通常设为CPU核心数）
-c：并发连接数
-d：测试持续时间

2. 测试结果分析

某次测试数据示例：
| 并发数 | 成功请求 | 失败请求 | 平均延迟 |
|————|—————|—————|—————|
| 50 | 4800 | 200 | 12ms |
| 100 | 9000 | 1000 | 35ms |
| 200 | 12000 | 8000 | 120ms |

当失败率超过1%时，需考虑：

增大burst值
优化后端服务处理能力
实施分级限流策略

3. 日志分析技巧

log_format limit_log '$remote_addr [$time_local] '
                     '"$request" $status $body_bytes_sent '
                     '"$http_referer" "$http_user_agent" '
                     '$limit_req_status';
access_log /var/log/nginx/limit.log limit_log;

关键字段说明：

$limit_req_status：记录限流状态（REJECTED/PASS）
$request_time：请求处理总时间
$upstream_response_time：后端响应时间

五、生产环境最佳实践

渐进式限流：

# 基础限流
limit_req_zone $binary_remote_addr zone=base:10m rate=100r/s;
# 严格限流（针对敏感接口）
limit_req_zone $binary_remote_addr zone=strict:5m rate=10r/s;
server {
    location /public/ {
        limit_req zone=base burst=50;
    }
    location /admin/ {
        limit_req zone=strict burst=5;
    }
}

结合限速模块：

# 同时限制连接数和请求速率
limit_conn_zone $binary_remote_addr zone=conn_limit:10m;
server {
    location / {
        limit_conn conn_limit 30;
        limit_req zone=req_limit burst=20;
    }
}

异常流量处理：
- 对503错误实施自动重试机制
- 配置CDN回源限流
- 建立黑名单自动更新系统

六、常见问题解决方案

内存不足错误：
- 错误现象：no memory for limit_req_zone
- 解决方案：增大worker_processes或优化zone大小
限流不生效：
- 检查点：
  - 确认配置已重新加载（nginx -t && nginx -s reload）
  - 检查$limit_req_status日志字段
  - 验证key变量是否正确解析

突发流量处理：

# 允许10秒内处理50个突发请求
limit_req zone=req_limit burst=50 nodelay;
# 更平滑的处理方式
limit_req zone=req_limit burst=50 delay=10;

通过系统化的限流策略配置，可有效提升Web服务的抗风险能力。建议结合全链路监控系统，持续优化限流参数，在资源利用率和服务稳定性之间找到最佳平衡点。

Nginx请求限流实战指南：从原理到配置详解