一、Transformer架构的演进与核心设计哲学 Transformer自2017年提出以来,其自注意力机制(Self-Attention)彻底改变了序列建模的范式。与传统的RNN/CNN相比,Transformer通过并行计算和长距离依赖捕捉能力,在机……