一、大模型自动评估的理论基础 1.1 评估目标与核心指标 大模型评估的核心目标是通过量化指标反映模型在特定任务上的表现,主要分为三类指标: 生成质量指标:BLEU(双语评估替换)、ROUGE(召回导向的文本生成评……