一、技术本质:从文本到图像的范式迁移 ViT的核心创新在于将自然语言处理(NLP)领域的Transformer架构无缝迁移至计算机视觉(CV)领域。传统CNN通过局部卷积核逐层提取特征,而ViT则通过”分块-序列化-自注意力”三……