一、ViT架构的核心设计理念 视觉Transformer(Vision Transformer, ViT)将自然语言处理中的Transformer架构迁移至计算机视觉领域,其核心设计理念是将图像视为由局部块(patch)组成的序列,通过自注意力机制(Se……