一、Transformer论文背景与核心贡献 Transformer模型首次提出于2017年论文《Attention Is All You Need》,其核心贡献在于彻底摒弃了传统序列模型(如RNN、LSTM)的递归结构,转而采用纯注意力机制实现序列到序列……