一、架构设计对比:从单塔到双塔的范式突破 经典Transformer采用”编码器-解码器”单塔结构,通过自注意力机制实现序列内全局依赖建模。其核心组件包括多头注意力层、前馈神经网络、残差连接与层归一化,参数规模随……