一、Transformer诞生的历史背景:从RNN到注意力机制的进化 在2017年之前,序列建模的主流方案以循环神经网络(RNN)及其变体LSTM、GRU为核心。这类模型通过逐帧处理输入序列,依赖隐藏状态传递信息,存在两大缺陷……