一、论文背景与核心问题 传统Transformer架构在计算机视觉领域面临两大挑战:一是全局自注意力机制的计算复杂度随图像分辨率平方增长(O(N²)),难以直接应用于高分辨率图像;二是缺乏视觉任务所需的局部性、平移……
一、论文背景与核心动机 传统Transformer架构在自然语言处理(NLP)领域取得巨大成功后,研究者开始探索其在计算机视觉(CV)任务中的潜力。然而,直接将NLP中的Transformer结构应用于图像存在两大挑战: 计算……