一、Transformer的诞生背景:为什么需要它? 在Transformer出现之前,序列建模的主流方案是RNN(循环神经网络)及其变体LSTM、GRU。这类模型通过”逐帧处理+隐藏状态传递”的方式捕捉时序依赖,但存在两个致命缺陷:……