层级化视觉Transformer:基于移位窗口的Swin架构解析 一、传统Transformer在视觉任务中的局限性 视觉Transformer(ViT)通过将图像分块为序列输入,首次在计算机视觉领域验证了自注意力机制的有效性。然而,直接应……