一、Swin Transformer的技术定位与核心突破 传统Transformer模型(如ViT)通过全局自注意力机制捕捉长距离依赖,但在处理高分辨率图像时面临计算复杂度(O(N²))与显存消耗的双重挑战。Swin Transformer通过引入层……