一、ViT的技术背景与核心突破 传统计算机视觉任务依赖卷积神经网络(CNN),通过局部感受野和层级特征提取实现图像理解。然而,CNN的归纳偏置(如平移不变性)在处理长距离依赖和全局信息时存在局限性。2020年,Go……