一、背景:MoE架构为何成为AI新宠? 近年来,随着大模型参数规模突破万亿级,传统Dense架构(如GPT系列)面临计算效率与推理成本的双重挑战。MoE(Mixture of Experts,专家混合)架构通过动态路由机制,将输入分……