一、技术架构解析:蒸馏模型的核心设计 DeepSeek的蒸馏模型基于“教师-学生”架构,通过知识迁移将大型模型的泛化能力压缩至轻量级模型中。其技术路径可分为三个阶段: 知识提取:以预训练的大模型(如DeepSeek-23……