自2017年《Attention is All You Need》论文提出Transformer架构以来,其自注意力机制和并行计算能力彻底改变了自然语言处理(NLP)领域。随着技术演进,原始架构衍生出三大核心变体:Encoder-Only、Decoder-Only……