Swin Transformer:层级化视觉Transformer架构解析 一、传统Transformer在视觉任务中的局限性 自Transformer架构在自然语言处理领域取得突破性进展后,其自注意力机制开始被引入计算机视觉任务。然而直接将标准Tra……
一、架构设计背景与核心目标 传统Vision Transformer(ViT)将图像分割为不重叠的Patch序列,通过全局自注意力机制建模长程依赖,但存在两大局限:其一,全局注意力计算复杂度随图像分辨率呈平方级增长(O(N²));……