百度BCCL:专为大模型训练优化,万卡集群故障定位新突破 随着大模型训练规模的爆发式增长,万卡级集群已成为行业标配。然而,集群规模扩大带来的通信延迟、链路故障、负载不均等问题,严重制约了训练效率与稳定性……