一、知识蒸馏技术背景与DeepSeek-R1定位 知识蒸馏(Knowledge Distillation)作为模型压缩的核心技术,通过将大型教师模型(Teacher Model)的”软标签”(Soft Targets)知识迁移至小型学生模型(Student Model),……