一、评测框架与方法论 本次评测采用分层测试体系,覆盖从基础能力到复杂场景的完整链路: 标准化测试集:构建包含10万+样本的跨领域数据集,涵盖代码生成、数学推理、视觉理解等20个子任务 真实场景模拟:选取金……