一、背景与动机 Transformer架构自问世以来,凭借自注意力机制在自然语言处理(NLP)和计算机视觉(CV)领域取得了巨大成功。然而,传统Transformer在处理长序列时面临计算复杂度高、局部信息捕捉不足的问题。尤其……