一、引言:Transformer为何成为主流? 自2017年《Attention is All You Need》论文提出Transformer架构以来,其凭借并行计算能力、长距离依赖建模能力以及可扩展性,迅速成为自然语言处理(NLP)领域的核心架构,……