引言 Transformer架构自提出以来,凭借其强大的全局建模能力,在自然语言处理领域取得了突破性进展。然而,直接将标准Transformer应用于计算机视觉任务时,面临计算复杂度随图像分辨率二次增长、局部信息建模不足……