一、DeepSeek-R1蒸馏模型技术解析 1.1 模型架构与核心优势 DeepSeek-R1作为基于Transformer架构的轻量化语言模型,通过知识蒸馏技术将大型预训练模型(如GPT-3.5、LLaMA-2)的核心能力压缩至参数规模更小的结构中……