一、预训练架构:效率与扩展性的双重突破 Nemotron Nano 2的预训练阶段采用三阶段渐进式策略,在计算效率与模型能力间取得平衡。 1. 基础预训练:FP8精度下的20万亿Token洗礼 模型初始阶段在20万亿Token数据集上进……