知识蒸馏在NLP中的深度实践:学生模型设计与优化 一、知识蒸馏技术基础与NLP适配性 知识蒸馏(Knowledge Distillation, KD)通过将大型教师模型(Teacher Model)的”软标签”(Soft Targets)和结构化知识迁移至轻……