一、DeepSeek-R1蒸馏模型技术架构解析 1.1 模型设计理念 DeepSeek-R1作为第三代蒸馏模型,采用”双塔式”混合架构设计,将基础Transformer编码器与轻量级解码器分离。编码器层采用12层Transformer结构(隐藏层维度76……