一、架构设计差异解析 1.1 模型规模与参数配置 R1采用混合专家架构(MoE),总参数量达175B,激活参数为37B,通过动态路由机制实现计算效率与模型容量的平衡。其设计理念源于Google的Switch Transformer,但引入了……