一、Deepseek蒸馏技术:重新定义模型压缩范式 1.1 传统模型蒸馏的局限性 传统知识蒸馏(Knowledge Distillation, KD)通过教师-学生架构实现模型压缩,但存在三大核心缺陷: 信息损耗:软标签(soft targets)携……