一、Transformer架构的诞生背景与核心价值 在2017年《Attention Is All You Need》论文提出之前,序列建模主要依赖循环神经网络(RNN)及其变体(如LSTM、GRU)。这类模型存在两大痛点:长序列依赖的梯度消失问题……