一、Transformer架构的局限性 Transformer自2017年提出以来,凭借自注意力机制和并行计算能力,成为大模型的主流架构。但其核心缺陷也逐渐显现: 计算复杂度与序列长度的平方关系自注意力机制的复杂度为O(n²),……