一、知识蒸馏技术基础与DeepSeek-R1模型定位 知识蒸馏(Knowledge Distillation)作为模型压缩的核心技术,其本质是通过”教师-学生”架构实现知识迁移。传统蒸馏方法中,教师模型(通常为参数量大、性能强的模型)……