一、技术背景与架构演进 在千亿参数大模型进入规模化应用阶段后,行业面临两大核心挑战:训练成本指数级增长与推理资源利用率不足。传统稠密模型(Dense Model)在处理多样化任务时,需加载全部参数导致显存占用高……