一、知识蒸馏技术概述 知识蒸馏(Knowledge Distillation)是一种模型压缩与加速技术,其核心思想是通过”教师-学生”(Teacher-Student)框架,将大型复杂模型(教师模型)的泛化能力迁移到小型轻量模型(学生模型……
一、知识蒸馏技术原理与NLP适配性 知识蒸馏(Knowledge Distillation)通过”教师-学生”模型架构实现知识迁移,其核心在于将大型教师模型输出的软目标(soft targets)作为监督信号,指导学生模型学习更丰富的概率……