一、传统Transformer的视觉困境与突破需求 在自然语言处理领域,Transformer通过自注意力机制实现了对长序列依赖的精准建模,但在视觉任务中直接应用面临两大挑战:计算复杂度随图像分辨率平方级增长,以及视觉信……