一、技术背景与核心挑战 大模型推理场景中,吞吐量(单位时间处理的请求数)是衡量服务能力的核心指标。传统方案受限于单卡内存、序列并行效率及调度策略,吞吐量往往难以突破线性增长瓶颈。例如,某主流云服务商……