一、Transformer架构的诞生背景:从RNN到自注意力机制的突破 在Transformer架构提出之前,序列建模的主流方案是循环神经网络(RNN)及其变体(如LSTM、GRU)。这些模型通过时序递归处理输入序列,但存在两个核心缺……