一、视觉Transformer的瓶颈与Swin的突破 传统Transformer架构在自然语言处理领域取得巨大成功后,被直接迁移至计算机视觉任务中,但面临两大核心挑战:其一,图像像素数量远超文本序列长度,导致全局自注意力计算……