一、预训练数据构建:质量与多样性的平衡艺术 预训练数据的质量直接决定模型的基础能力上限。在构建数据集时需遵循”三维度筛选原则”: 领域覆盖度:通过熵值计算评估数据分布,确保覆盖核心应用场景(如NLP任务需……