一、知识蒸馏:大模型时代的”炼金术” 知识蒸馏(Knowledge Distillation)作为模型压缩的核心技术,通过”教师-学生”架构实现能力迁移。其本质是将大型预训练模型(教师)的软标签(soft targets)与隐含知识传递给……