一、Swin-Transformer Block的提出背景 传统Vision Transformer(ViT)通过全局自注意力机制建模图像特征,但存在两大缺陷:一是计算复杂度随图像分辨率平方增长(O(N²)),难以处理高分辨率输入;二是缺乏对局部……