一、Transformer在视觉领域的”水土不服”与Swin的破局之道 传统Transformer架构凭借自注意力机制在NLP领域大放异彩,但直接迁移到视觉任务时面临两大挑战: 计算复杂度爆炸:图像分辨率远高于文本序列长度,原始……