一、背景与问题提出 传统Transformer架构在视觉任务中面临两大核心挑战:其一,全局自注意力机制的计算复杂度随图像分辨率呈平方级增长(O(N²)),导致高分辨率输入时显存消耗剧增;其二,缺乏视觉任务特有的层次……