一、知识蒸馏的技术内核:从”教师-学生”到模型压缩的范式革命 知识蒸馏(Knowledge Distillation, KD)的本质是通过软目标(Soft Target)传递模型能力,其核心公式可表示为:[ \mathcal{L}{KD} = \alpha \cdot \m……