百度杨林：百度云MongoDB部署与优化实战经验

一、MongoDB云上部署架构设计

在云环境中部署MongoDB需综合考虑资源弹性、网络延迟及数据安全。百度云技术团队通过多年实践，总结出”三层分离+动态扩展”的架构模型：

计算层分离
将读写节点与只读节点部署在不同可用区，利用云平台内网低延迟特性实现跨区数据同步。例如某金融客户采用3主节点+5只读节点的配置，通过readPreference=secondaryPreferred参数将90%的查询流量导向只读节点，主节点CPU负载下降65%。
存储层优化
推荐使用云平台提供的增强型SSD（如百度云BCC的SSD云盘），其IOPS随容量线性增长的特性完美匹配MongoDB的WiredTiger存储引擎。实测数据显示，当集合数据量超过500GB时，增强型SSD的随机写入延迟比普通SSD低42%。
动态扩展机制
基于云服务的自动伸缩组（ASG）实现分片集群的弹性扩容。示例配置如下：
```
# 伸缩策略示例
scalingPolicy:
  - metric: CPUUtilization
    target: 70%
    adjustmentType: ChangeInCapacity
    adjustmentValue: 2
  cooldown: 300
```
当监控到分片节点CPU持续超过70%时，自动增加2个实例，冷却时间5分钟防止频繁扩缩容。

二、性能调优实战技巧

1. 索引优化策略

通过explain()分析执行计划，重点优化以下场景：

复合索引顺序：遵循”等值在前，范围在后”原则，例如订单查询{status:1, createTime:-1}比反向排序的索引效率高3倍
覆盖索引应用：对频繁查询的字段建立包含索引，如日志查询场景：
```
db.logs.createIndex({level:1, timestamp:1}, {background:true})
db.logs.find({level:"ERROR"}, {_id:0, message:1, timestamp:1})
```
实测显示该索引使查询响应时间从120ms降至8ms。

2. 连接池配置

在应用层配置连接池时需注意：

最大连接数：建议设置为(核心数*2) + 磁盘数，例如8核12盘的服务器建议设置28个连接
超时设置：推荐配置connectTimeoutMS=5000, socketTimeoutMS=30000
连接复用：启用maxPoolSize和minPoolSize参数，避免频繁创建销毁连接

3. 写入优化方案

针对高并发写入场景，可采用以下组合策略：

批量插入：单次批量操作建议控制在500-1000条/次

var bulk = db.items.initializeUnorderedBulkOp();
for(var i=0; i<1000; i++){
    bulk.insert({name:"item"+i, value:Math.random()});
}
bulk.execute();

异步写入：配置w:1（确认单个节点写入）而非w:"majority"，结合业务容错性调整
文档结构优化：将频繁更新的字段嵌入主文档，减少$push等昂贵操作

三、高可用与灾备设计

1. 多区域部署方案

采用”同城双活+异地灾备”的三中心架构：

主中心：部署3个分片主节点
同城备中心：部署2个分片从节点+1个仲裁节点
异地灾备中心：通过云平台数据传输服务（DTS）实现异步复制

2. 监控告警体系

构建四层监控体系：

基础设施层：监控CPU、内存、磁盘I/O等基础指标
数据库层：跟踪queuedOperations、cursorTimeouts等MongoDB特有指标
应用层：通过Prometheus抓取应用端慢查询日志
业务层：监控关键业务指标如订单创建成功率

示例告警规则：

- alert: MongoDBHighLatency
  expr: avg(mongodb_op_latencies_ms{operation="query"}) by (instance) > 500
  for: 5m
  labels:
    severity: critical
  annotations:
    summary: "High query latency on {{ $labels.instance }}"

四、典型问题解决方案

1. 分片键选择误区

避免使用单调递增字段（如时间戳）作为分片键，这会导致所有写入集中到最后一个分片。推荐采用哈希分片或复合分片：

// 哈希分片示例
sh.shardCollection("test.orders", {orderId:"hashed"})
// 复合分片示例
sh.shardCollection("test.users", {region:1, userId:1})

2. 内存管理优化

当出现WiredTiger cache pressure警告时，可调整以下参数：

# mongod配置示例
storage:
  wiredTiger:
    engineConfig:
      cacheSizeGB: 16  # 建议设置为可用内存的50%-60%
      journalCompressor: snappy

3. 大表处理策略

对于超过10亿条记录的集合，建议：

按时间范围分表（如orders_202301）

启用TTL索引自动清理过期数据

db.logs.createIndex({createTime:1}, {expireAfterSeconds: 2592000}) // 30天后自动删除

使用$merge操作符进行定期归档

五、成本优化建议

实例规格选择：通过压测确定QPS与实例规格的对应关系，避免过度配置
存储类型选择：对归档数据使用低频存储，成本可降低70%
预留实例采购：对稳定负载的业务采用预留实例，相比按需实例节省45%费用

百度云技术团队在服务数千家企业过程中沉淀的这些经验，已形成完整的MongoDB云上管理方案。开发者可通过云平台提供的自动化工具快速实施上述优化措施，显著提升数据库性能与稳定性。