一、传统评估体系的局限性与业务断层 在2023年之前,AI能力的评估主要依赖静态基准测试体系,其核心逻辑是通过预设的”输入-输出”对验证模型性能。典型案例包括: 语言理解评估:MMLU(Massive Multitask Language……