一、技术背景:大语言模型推理范式的演进与挑战 近年来,大语言模型(LLM)的参数规模与计算复杂度呈指数级增长,主流模型参数从百亿级跃升至千亿级。然而,传统Transformer架构的推理效率面临显著瓶颈:静态注意……