一、技术背景:为何选择DeepSeek-R1模型蒸馏? DeepSeek-R1作为千亿参数规模的预训练大模型,在自然语言理解、多模态交互等场景展现出卓越性能。然而,其庞大的参数量(通常超过100B)导致推理成本高昂,难以直接……