一、技术背景与融合动机 传统基于卷积神经网络(CNN)的目标检测算法(如YOLOv5)在局部特征提取上表现优异,但缺乏对全局上下文信息的建模能力。而Transformer架构通过自注意力机制能捕捉长距离依赖关系,Swin Tr……