事件背景:凌晨3点的紧急告警 2025年1月15日凌晨3:17,某企业生产环境的K8s集群监控系统触发多条告警规则:核心业务Pod的CPU使用率持续飙升至95%,部分节点出现OOM(Out of Memory)错误,同时集群API Server的响……