一、KV Cache的起源与核心价值 在大模型推理场景中,自回归生成(如GPT系列)是典型的工作模式。每次生成新token时,模型需重新计算所有历史token的Key-Value(KV)注意力,导致计算量随序列长度线性增长。例如,……