一、大模型评估为何需要人工指标? 在大模型研发与应用中,自动化指标(如BLEU、ROUGE)虽能快速量化模型输出,但存在明显局限性:自动化指标往往聚焦于表面特征(如词重叠率),难以捕捉语义深度、逻辑合理性及领……