一、MoE架构崛起:大模型训练的”双刃剑” 在大模型参数规模突破万亿级后,MoE(Mixture of Experts)架构凭借其独特的稀疏激活特性,成为提升模型效率的核心范式。通过将模型拆分为多个专家子网络,每个专家仅处理……