一、Transformer:自注意力机制的革命性突破 1.1 核心架构设计 Transformer采用编码器-解码器(Encoder-Decoder)结构,每个编码器/解码器层由多头注意力机制(Multi-Head Attention)和前馈神经网络(Feed Forwar……