Transformer笔记:从理论到实践的深度解析 1. 架构核心:自注意力机制解析 Transformer的核心创新在于自注意力机制(Self-Attention),其通过动态计算输入序列中各元素间的相关性权重,突破了传统RNN的时序依赖限……