引言:Transformer的进化需求 自2017年提出以来,Transformer架构凭借自注意力机制(Self-Attention)和并行计算能力,成为自然语言处理(NLP)领域的基石。然而,随着任务复杂度的提升(如长文本处理、多模态融合……