一、技术背景与核心挑战 传统Vision Transformer(ViT)通过全局自注意力机制捕捉图像特征,但存在两大问题:一是计算复杂度随图像分辨率平方增长,难以处理高分辨率输入;二是缺乏层次化特征表示,与卷积神经网络……