一、背景与动机:为何需要简化Transformer? Transformer架构自2017年提出以来,凭借自注意力机制和并行计算能力,成为自然语言处理(NLP)领域的基石。然而,原始Transformer的复杂度随着序列长度和层数增加而显……