Kafka监控配置哪些指标关键
Kafka监控需重点关注以下关键指标,覆盖集群、生产者、消费者及ZooKeeper等组件,确保系统稳定运行:
一、Broker核心指标
- 资源使用:CPU、内存、磁盘使用率,网络I/O及磁盘I/O负载。
- 副本同步:
UnderReplicatedPartitions
(未同步分区数,>0表示副本异常)、ISRShrinksPerSec/ISRExpandsPerSec
(ISR收缩/扩展频率)。 - 集群状态:
ActiveControllerCount
(活跃Controller数量,正常应为1)、OfflinePartitionsCount
(离线分区数,>0需排查)。 - 请求处理:
MessagesInPerSec
(消息吞吐量)、BytesIn/BytesOutPerSec
(流量监控)、RequestHandlerAvgIdlePercent
(Handler空闲率,过低表示压力大)。
二、生产者关键指标
- 发送效率:
record-send-rate
(消息发送速率)、request-latency-avg
(请求平均延迟)、batch-size-avg
(批量大小)。 - 可靠性:
record-error-rate
(错误率)、retries
(重试次数),需关注acks
配置是否为all
以保证数据不丢失。
三、消费者关键指标
- 消费进度:
records-lag
(消费滞后量,>0表示积压,需告警)、fetch-rate
(拉取速率)、commit-rate
(Offset提交频率)。 - 性能状态:
poll-latency-avg
(拉取延迟,>100ms需关注)、heartbeat-rate
(心跳频率,异常可能触发重平衡)。
四、Topic/分区指标
- 流量与积压:
LogEndOffset
(最新位点)、LogStartOffset
(起始位点)、Size
(分区占用磁盘大小)。 - 健康状态:
IsrShrinksPerSec
(ISR缩减频率,频繁收缩需排查Follower异常)。
五、ZooKeeper指标(v3.x前需关注)
- 节点状态:ZK节点在线状态、会话超时次数。
- 请求性能:
ZookeeperRequestLatency
(请求延迟)、ZookeeperOutstandingRequests
(未处理请求数)。
六、JVM监控
- 内存与GC:堆内存使用率、Full GC频率及耗时,避免频繁GC导致性能抖动。
工具推荐:通过Prometheus+Grafana采集JMX指标,结合Kafka自带命令行工具(如kafka-consumer-groups.sh
)辅助验证。
以上指标覆盖Kafka核心运行状态,可根据业务场景调整告警阈值,例如对records-lag
和UnderReplicatedPartitions
设置严格告警规则。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权请联系我们,一经查实立即删除!