引言:长程建模的必要性 Transformer模型凭借自注意力机制(Self-Attention)在自然语言处理(NLP)领域取得了革命性突破,但其标准实现存在一个关键缺陷:计算复杂度随序列长度平方增长(O(n²))。当处理超长序列……