一、技术背景:从单一尺度到嵌套架构的演进 传统Transformer架构通过自注意力机制实现全局信息交互,但其单层结构在处理复杂任务时面临特征粒度单一的问题。例如在图像分类任务中,低层特征(边缘、纹理)与高层语……