一、传统负载均衡在LLM场景的局限性分析 在通用Web服务中,轮询、随机、最小连接数等经典负载均衡算法通过分散请求压力实现资源利用率最大化。然而当这些算法应用于LLM推理服务时,暴露出三个根本性缺陷: 1.1 任……