一、Transformer的局限与Mamba的诞生背景 自2017年Transformer架构提出以来,其自注意力机制(Self-Attention)凭借对全局依赖的捕捉能力,成为自然语言处理(NLP)领域的基石。然而,随着模型规模与序列长度的增……