一、Transformer的局限性:为何需要替代方案? 自2017年《Attention is All You Need》论文提出以来,Transformer架构凭借自注意力机制和并行计算能力,成为自然语言处理(NLP)领域的基石。然而,随着模型规模和……