引言:Transformer为何能重塑视觉领域? 自2020年Vision Transformer(ViT)提出以来,Transformer架构凭借其强大的全局建模能力,逐步打破卷积神经网络(CNN)在计算机视觉领域的统治地位。然而,ViT的原始设计存……