一、人工评估的核心价值与适用场景 在自动化评估指标(如BLEU、ROUGE)存在局限性的场景下,人工评估成为验证模型性能的关键环节。其核心价值体现在三方面: 主观性任务验证:创意生成、对话交互等任务需人类判断……