一、混合架构的技术背景与演进逻辑 计算机视觉领域长期面临局部特征与全局语义的平衡难题。传统CNN(如ResNet)通过堆叠卷积层实现局部特征逐层抽象,但受限于感受野大小,难以建模长程依赖关系;而Transformer凭……