一、技术突破:从图像分类到全场景覆盖的范式革命 2020年ViT首次将Transformer架构引入计算机视觉领域,其核心思想是通过自注意力机制替代传统CNN的局部卷积,实现全局特征建模。这一范式突破带来了三方面技术演进……