一、ViT架构概览:从Transformer到视觉任务的迁移 ViT的核心思想是将图像分割为非重叠的图像块(Patches),将其视为序列中的”词元”(Tokens),并通过标准的Transformer编码器处理。这种设计打破了CNN对局部感受……