引言 随着Transformer架构在计算机视觉领域的突破性应用,基于自注意力机制的模型逐渐成为研究热点。然而,传统Vision Transformer(ViT)因全局注意力计算带来的高复杂度问题,限制了其在高分辨率图像任务中的直……