一、数据集构建:质量决定模型上限 1.1 数据清洗的三大核心原则 数据质量直接影响微调效果,需遵循”相关性、多样性、平衡性”原则。相关性要求数据与目标任务高度匹配,例如法律问答模型需剔除娱乐、体育类无关数据……