Deepseek中的蒸馏技术:如何让小模型拥有大智慧? 一、蒸馏技术的核心原理:知识迁移的底层逻辑 蒸馏技术(Knowledge Distillation)的本质是通过构建”教师-学生”模型架构,将大模型(教师)的泛化能力迁移到小模……