一、知识蒸馏的技术定位与核心挑战 在DeepSeek R1架构中,知识蒸馏被定义为连接大模型(教师模型)与小模型(学生模型)的桥梁。其核心目标是通过提取教师模型的”暗知识”(dark knowledge),包括中间层特征、注意……