引言 在深度学习领域,视觉Transformer(Vision Transformer, VIT)凭借其自注意力机制在图像识别任务上取得了显著成就,尤其是在大数据集上展现出了强大的泛化能力。然而,VIT模型通常具有较高的计算复杂度和内存……