引言:Transformer的局限性催生新架构探索 自2017年Transformer架构提出以来,其自注意力机制(Self-Attention)凭借并行计算能力和长距离依赖建模优势,迅速成为大模型的主流架构。然而,随着模型规模扩大和应用……