一、传统Transformer架构的效率瓶颈 在自然语言处理领域,Transformer架构自2017年提出以来,始终遵循着”编码器-解码器”的对称设计。每个处理层采用”窄-宽-窄”的哑铃结构:输入层通过线性变换扩展维度,中间层执行……