一、传统注意力机制的瓶颈分析 Transformer模型的核心优势源于自注意力机制(Self-Attention),其通过计算Query、Key、Value三组向量的相似度实现全局信息交互。然而,标准注意力机制的计算复杂度为O(L²),其中L……