一、知识蒸馏:模型能力迁移的核心技术 知识蒸馏(Knowledge Distillation)作为一种轻量化模型优化技术,其核心在于通过”教师-学生”模型架构,将复杂模型(教师)的隐式知识(如中间层特征、注意力分布)迁移至轻……