一、基础能力评估:模型性能的基石 1.1 语言理解能力 语言理解是大模型的核心能力,需通过多维度指标量化评估。语义准确性可通过问答任务(如SQuAD)的F1值衡量,重点考察模型对复杂语境、指代消解、逻辑推理的解……