1. 背景与挑战:大模型推理的显存瓶颈 在生成式AI模型规模持续扩大的背景下,推理阶段的显存管理成为关键挑战。以Transformer架构为例,KV Cache(Key-Value Cache)作为自注意力机制的核心组件,其存储开销与序列……