一、Transformer架构的崛起与瓶颈 自2017年《Attention is All You Need》论文提出Transformer架构以来,其自注意力机制(Self-Attention)与并行计算能力迅速成为大语言模型(LLM)的主流架构。通过多头注意力(M……