一、背景与核心问题:Transformer在视觉领域的局限性 传统Transformer模型(如ViT)通过全局自注意力机制直接处理图像,但其计算复杂度随输入分辨率呈平方级增长(O(N²)),导致高分辨率图像处理时显存消耗剧增。……