一、背景与问题提出 在计算机视觉领域,卷积神经网络(CNN)长期占据主导地位,其局部感受野和权重共享特性使其在图像任务中表现优异。然而,CNN的归纳偏置较强,对长距离依赖的建模能力有限。随着Transformer在自……