一、技术背景与融合动机 Transformer架构凭借自注意力机制在自然语言处理(NLP)领域取得突破性进展,而ResNet通过残差连接解决了深度卷积神经网络(CNN)的梯度消失问题,成为计算机视觉(CV)领域的标杆模型。两……