一、自动化评估的理论基础 1.1 评估指标的分层设计 大模型自动评估的核心在于构建多维度、可量化的指标体系,通常可分为三个层次: 基础能力层:聚焦模型的语言理解与生成能力,常用指标包括困惑度(Perplexity)……