一、技术背景:大模型时代的轻量化需求 在GPT-4、PaLM等千亿参数模型主导的AI时代,大模型展现出的复杂推理能力令人瞩目。但动辄数百GB的存储需求、高昂的训练成本以及显著的推理延迟,使其难以部署在边缘设备或实……