一、分布式训练负载均衡的技术挑战 在千亿参数规模的大模型训练中,传统MoE(Mixture of Experts)架构面临的核心矛盾日益凸显:当采用静态路由策略时,系统往往将大量token分配给少数”热门”专家网络,导致GPU集群……