一、Transformer的核心架构与突破性设计 Transformer模型诞生于2017年《Attention Is All You Need》论文,其核心突破在于完全摒弃传统序列模型(如RNN、LSTM)的循环结构,转而采用纯注意力机制实现并行计算。这……