一、ViT:Transformer的视觉革命 1.1 核心架构解析 Vision Transformer(ViT)首次将自然语言处理中的Transformer架构引入计算机视觉领域,其核心思想是将图像视为由多个不重叠的patch组成的序列。例如,一张224×2……