一、技术演进背景:传统注意力机制的内存困境 在大规模语言模型(LLM)的训练与推理过程中,自注意力机制(Self-Attention)是核心组件,但其内存占用问题长期制约模型效率。以传统多头注意力(MHA)为例,每个注……