一、技术背景:模型轻量化的必然需求 在AI大模型进入”千亿参数”竞争阶段后,推理成本与部署门槛成为制约技术落地的关键瓶颈。以Qwen-7B为例,其完整模型在GPU上推理时需占用约14GB显存(FP16精度),而边缘设备或……