一、架构创新:轻量化与混合结构的突破 传统Vision Transformer(ViT)通过分割图像为固定patch进行自注意力计算,但存在计算冗余和局部信息丢失问题。创新方向之一是构建分层混合架构,例如将卷积神经网络(CNN)……