一、知识蒸馏技术基础与Deepseek-R1特性 知识蒸馏(Knowledge Distillation)作为模型压缩的核心方法,通过教师-学生架构实现知识迁移。Deepseek-R1作为高性能语言模型,其蒸馏过程需重点关注三个特性:1)12层Tra……