一、技术背景与核心动机 传统 Transformer 模型通过自注意力机制捕捉序列中的全局依赖关系,但其静态计算模式存在两个潜在问题:注意力权重固定化导致模型对输入数据的适应性不足,计算复杂度随序列长度平方增长限……