一、实验背景与目标 视觉Transformer(ViT)与分层窗口Transformer(Swin Transformer)是当前计算机视觉领域最具代表性的纯Transformer架构。ViT首次将自然语言处理中的Transformer结构直接迁移至图像分类任务,……