一、论文背景与核心挑战 传统Vision Transformer(ViT)通过全局自注意力机制建模图像空间关系,在图像分类等任务中取得突破性成果。然而,ViT存在两大核心缺陷:其一,全局注意力计算复杂度随图像分辨率呈平方级……