一、模型架构与核心设计差异 1.1 参数规模与结构优化 DeepSeek R1采用混合专家架构(MoE),总参数规模达1750亿,但激活参数仅370亿,通过动态路由机制实现计算效率与模型容量的平衡。其核心设计包含16个专家模块……