一、Swin Transformer的技术定位与核心优势 在计算机视觉领域,传统卷积神经网络(CNN)受限于局部感受野和固定结构,难以建模长距离依赖关系。而ViT(Vision Transformer)虽引入全局自注意力机制,却因计算复杂……