一、Transformer架构的诞生背景与核心优势 在大语言模型(LLM)兴起前,序列建模主要依赖循环神经网络(RNN)及其变体(如LSTM、GRU)。这类模型通过时间步递归处理序列数据,但存在两大缺陷:长序列依赖丢失与并……