一、版本背景:LLM 推理系统的性能瓶颈与优化方向 在 LLM 推理场景中,模型规模与上下文长度的持续增长对系统架构提出了严苛挑战。以千亿参数模型为例,单个请求的 KV 缓存可能占用数十 GB GPU 内存,导致单机可服……