一、Vanilla Transformer:基础架构与局限性 Vanilla Transformer作为自注意力机制的奠基性架构,其核心设计包含多头注意力层、前馈神经网络与残差连接。通过并行计算实现全局信息交互,在机器翻译、文本生成等任……