一、大模型自动评估的理论基础 1.1 评估维度的三维模型 大模型评估需从能力、性能、安全三个维度构建指标体系: 能力维度:包含语言理解(如MMLU准确率)、生成质量(BLEU/ROUGE)、逻辑推理(GSM8K得分)等核心……