一、Transformer的瓶颈与Mamba的破局点 自2017年Transformer架构问世以来,其自注意力机制(Self-Attention)凭借并行计算能力和长距离依赖建模能力,成为自然语言处理(NLP)领域的基石。然而,随着模型规模与序……