一、核心架构差异:从全局到层次化的建模方式 Transformer的原始设计基于全局自注意力机制,每个位置需与输入序列中所有位置计算注意力权重。以编码器层为例,其计算流程可表示为: # 伪代码:Transformer单头注意……