层级化注意力:Swin Transformer的架构革新 传统Vision Transformer(ViT)将图像切分为固定大小的patch序列,通过全局自注意力建模长程依赖,但存在两大核心缺陷:计算复杂度随图像分辨率平方增长(O(N²)),以及……