一、基础能力评估体系 语言理解能力是模型的基础,需通过BLEU(双语评估替换)和ROUGE(面向召回的评估)指标量化。BLEU通过n-gram匹配度衡量生成文本与参考文本的相似性,适用于机器翻译场景;ROUGE则侧重召回率……