一、知识蒸馏的深层机制解析 知识蒸馏(Knowledge Distillation)的核心在于通过软目标(Soft Target)传递教师模型的”暗知识”,其本质是概率分布的熵值压缩过程。传统交叉熵损失函数在蒸馏场景下需改造为包含温度……