引言:从标准Transformer到视觉任务的适配挑战 标准Transformer通过自注意力机制捕捉全局依赖,在自然语言处理领域取得突破性进展。然而,直接将其应用于视觉任务时面临两大核心挑战:其一,图像数据的高分辨率特……