一、知识蒸馏的核心原理与NLP适配性 知识蒸馏(Knowledge Distillation)通过将大型教师模型(Teacher Model)的“软目标”(Soft Target)知识迁移至小型学生模型(Student Model),实现模型压缩与性能保持的平衡……