Swin Transformer技术解析:基于滑动窗口的层级视觉模型 一、技术背景与核心挑战 传统视觉Transformer(ViT)通过全局自注意力机制直接建模图像块间的长程依赖关系,但存在两大局限:其一,全局注意力计算复杂度随……