一、Attention机制:从理论到实践的突破 1.1 传统序列模型的局限性 在Transformer架构出现前,循环神经网络(RNN)及其变体(LSTM、GRU)是处理序列数据的主流方案。但其存在两大缺陷: 长程依赖问题:信息随序列……