一、引言:从全局到局部的视觉建模演进 视觉Transformer(ViT)通过自注意力机制直接建模图像像素间的全局关系,在图像分类任务中展现出超越卷积神经网络的潜力。然而,传统ViT存在两个核心问题:一是计算复杂度随……
一、背景与问题:传统视觉Transformer的局限性 在自然语言处理领域,Transformer通过自注意力机制实现了对长序列依赖的高效建模,但在计算机视觉任务中直接应用时面临三大挑战: 计算复杂度与分辨率的矛盾:全局……