一、Transformer诞生的背景:传统序列模型的瓶颈 在2017年Transformer架构提出之前,自然语言处理(NLP)领域的主流技术方案主要依赖循环神经网络(RNN)及其变体(如LSTM、GRU)。这类模型通过逐个时间步处理序列……