Swin Transformer:重新定义视觉任务的层级化注意力机制 一、从标准Transformer到视觉任务的适配困境 传统Transformer架构(如ViT)通过全局自注意力机制建模序列关系,在自然语言处理中展现了强大的特征提取能力……
引言:视觉Transformer的范式革新 在计算机视觉领域,卷积神经网络(CNN)长期占据主导地位,但其局部感受野与平移不变性的设计存在天然局限。随着Transformer架构在自然语言处理领域的突破,研究者开始探索将自注……
一、论文背景与核心挑战 传统视觉Transformer(如ViT)通过全局自注意力机制捕捉长程依赖,但存在两大核心问题:计算复杂度随图像分辨率平方增长,导致高分辨率输入时显存消耗剧增;缺乏层级化特征表达,难以直接……