一、DeepSeek-R1蒸馏小模型技术解析 1.1 模型架构创新 DeepSeek-R1作为基于Transformer架构的轻量化模型,通过知识蒸馏技术将原始大模型的核心能力压缩至3B-7B参数规模。其核心创新点在于: 动态注意力机制:引入……