一、传统序列建模的困境与Attention的突破 在Transformer架构出现前,序列建模主要依赖循环神经网络(RNN)及其变体(LSTM、GRU)。这类模型通过逐个处理输入序列的元素,并依赖隐藏状态传递信息,存在两大核心问……