一、引言:大模型推理性能优化的核心挑战 随着大模型参数规模突破千亿级,推理阶段的计算密度与内存带宽需求呈指数级增长。在保持模型精度的前提下,如何将推理延迟控制在毫秒级、吞吐量提升至万级QPS(每秒查询数……