一、Inception Transformer的架构创新背景 传统Transformer模型在处理图像或序列数据时,通常依赖单一尺度的特征提取方式。例如,ViT(Vision Transformer)将图像分块后直接通过全局自注意力计算,虽然能捕捉长距……