一、视觉Transformer的崛起背景 传统计算机视觉任务长期依赖卷积神经网络(CNN),其局部感受野与平移不变性在图像分类、目标检测等任务中表现优异。但随着数据规模扩大与任务复杂度提升,CNN的归纳偏置逐渐成为性……