一、背景与核心挑战 传统Transformer模型通过全局自注意力机制捕捉长距离依赖,在NLP领域取得巨大成功。然而,当其直接应用于计算机视觉任务时,面临两大核心挑战: 计算复杂度问题:全局自注意力的计算复杂度为O……