一、视觉Transformer的演进与层级化设计需求 视觉Transformer(Vision Transformer, ViT)通过将图像分块为序列,引入自注意力机制实现全局特征建模,在图像分类任务中展现出超越传统CNN的潜力。然而,ViT的原始设……