1. Transformer架构概述 Transformer作为自然语言处理领域的里程碑模型,其核心设计突破了传统RNN/CNN的序列依赖限制,通过自注意力机制实现并行化计算。模型整体采用编码器-解码器(Encoder-Decoder)结构,其中……