一、知识蒸馏的技术本质:大模型的“软知识”迁移 知识蒸馏(Knowledge Distillation)的本质是通过教师模型(Teacher Model)的“软目标”(Soft Targets)引导学生模型(Student Model)学习更丰富的知识表示。相较……