一、Transformer架构的崛起背景 在深度学习发展历程中,循环神经网络(RNN)及其变体(如LSTM、GRU)长期主导序列建模任务。然而,RNN的序列依赖特性导致其难以并行化训练,且在长序列场景中存在梯度消失或爆炸问……