一、技术背景与核心挑战 传统Transformer架构在自然语言处理领域取得巨大成功后,视觉研究者开始探索将其应用于图像任务。然而,直接将NLP中的全局自注意力机制迁移到视觉领域面临两大核心挑战: 计算复杂度问题……