一、评估体系构建:从基础指标到多维度框架 1.1 传统NLP任务的评估基石 在分类、翻译、摘要等经典自然语言处理任务中,准确率、精确率、F1值等基础指标仍是评估的基石。以垃圾邮件分类为例,构建包含1000封邮件的……