一、Transformer架构:大模型时代的基石革命 2017年《Attention is All You Need》论文提出的Transformer架构,通过自注意力机制彻底改变了序列建模范式。相较于传统RNN的时序依赖缺陷,Transformer采用多头注意力……