一、Transformer模型架构的宏观框架 Transformer模型采用经典的编码器-解码器(Encoder-Decoder)结构,通过并行化处理序列数据,彻底改变了传统RNN/LSTM的时序依赖模式。其核心设计思想可概括为:通过自注意力机……