引言:序列建模的困境与突破 在Transformer架构诞生之前,自然语言处理(NLP)领域长期依赖循环神经网络(RNN)及其变体(如LSTM、GRU)处理序列数据。这类模型通过时间步递归传递隐藏状态,理论上能够捕捉长程依……