一、背景与核心挑战 传统视觉Transformer(如ViT)通过全局自注意力机制捕捉长程依赖,但在高分辨率图像处理中面临计算复杂度随图像尺寸平方增长的难题。例如,输入一张224×224的图像,ViT的注意力计算复杂度为O(N……