Kafka如何进行故障恢复

Kafka通过以下机制实现故障恢复：

副本机制与ISR管理
- 通过多副本（replication.factor）存储数据，故障时从ISR（同步副本集合）中选举新Leader。
- 生产者配置acks=all确保数据写入ISR，避免丢失。
自动故障检测与Leader选举
- 通过心跳机制检测Broker存活，Controller从ISR中选择新Leader并广播元数据。
- 关键参数：unclean.leader.election.enable=false（禁止非ISR副本当选，确保数据安全）。
分区重平衡与数据同步
- 故障恢复后，副本从新Leader拉取数据，通过kafka-reassign-partitions.sh工具可手动调整分区分配。
监控与运维工具
- 使用JMX、Prometheus+Grafana监控ISR状态、Leader切换等指标，设置告警。
- 定期演练故障场景（如模拟Broker宕机），验证恢复流程。

生产环境建议：