一、Transformer架构诞生背景与核心价值 传统序列模型(如RNN、LSTM)存在两大痛点:长距离依赖捕捉困难与并行计算效率低下。2017年《Attention is All You Need》论文提出的Transformer架构,通过自注意力机制(S……