一、知识蒸馏技术为何被DeepSeek带火? 1.1 大模型时代的轻量化刚需 随着GPT-4、LLaMA-3等千亿参数模型的出现,模型部署成本呈指数级增长。DeepSeek团队通过知识蒸馏技术,将大模型的知识迁移到小模型中,在保持90……