大语言模型蒸馏:轻量化部署与高效推理的实践指南 摘要 随着大语言模型(LLM)参数规模突破万亿级,其部署成本与推理延迟成为制约应用落地的核心瓶颈。模型蒸馏(Model Distillation)作为一种将大型模型知识迁移……