一、评测体系构建的核心原则 大模型推理能力的科学评估需遵循三大原则:场景覆盖性要求测试用例覆盖基础逻辑、复杂推理、多步决策等典型场景;指标可量化需建立数值化评估标准,避免主观判断;可复现性需明确环境……