一、MoE架构的革新:从参数量到活跃量的范式突破 在传统稠密模型(Dense Model)中,参数量与计算量呈线性正相关,例如16B参数的模型在推理时需激活全部参数,导致显存占用与计算成本居高不下。而DeepSeek-V2-Lite……