一、Transformer架构:大模型时代的基石突破 2017年《Attention is All You Need》论文提出的Transformer架构,通过自注意力机制(Self-Attention)彻底改变了序列建模的范式。相较于传统RNN/LSTM的时序依赖问题,……