一、Transformer的诞生背景:从RNN到注意力机制的突破 在Transformer架构出现前,自然语言处理(NLP)领域的主流方案是循环神经网络(RNN)及其变体(如LSTM、GRU)。这些模型通过逐词处理输入序列,利用隐藏状态……