一、技术背景与核心挑战 DeepSeek R1论文提出的蒸馏技术旨在解决传统知识蒸馏在复杂模型压缩中的两大痛点:特征空间失配与梯度传播断裂。传统方法(如Hinton等人的温度系数蒸馏)在跨模态或跨架构迁移时,存在中间……