一、知识蒸馏:让小模型“偷师”大模型的底层逻辑 知识蒸馏(Knowledge Distillation)的核心思想是通过教师-学生模型架构,将大模型(教师)的“软标签”(soft targets)和推理模式迁移到小模型(学生)中。传统蒸馏……