一、实验背景与目标 视觉Transformer(Vision Transformer, ViT)作为将自然语言处理领域的Transformer架构引入计算机视觉的开创性工作,凭借全局注意力机制在图像分类等任务中展现出强大潜力。然而,ViT的原始设……