一、技术背景与模型优势 SG-Former作为基于Transformer架构的视觉模型,通过自注意力机制有效捕捉图像全局特征,相比传统CNN模型在长距离依赖建模上具有显著优势。其分层Transformer编码器结构可同时提取多尺度特……