一、MoE架构的进化:从参数规模到动态计算效率的跃迁 混合专家模型(Mixture of Experts, MoE)通过路由机制激活部分神经元,突破了传统密集模型”参数越多,计算量越大”的瓶颈。DeepSeek-V2-Lite在继承MoE核心优势……