一、传统评估方法的历史局限与演进 在NLP发展初期,模型评估主要依赖单一指标体系。以分类任务为例,准确率(Accuracy)通过计算预测标签与真实标签的匹配比例,成为最直观的评估方式。但在多标签分类场景中,该指……