一、Transformer架构的核心设计思想 Transformer架构的核心创新在于自注意力机制(Self-Attention),其通过动态计算输入序列中各元素间的关联权重,突破了传统RNN的时序依赖限制。该架构包含两大核心组件: 编码……