大模型Agent评测数据集:从构建到迭代的完整实践 大模型Agent的智能化水平直接影响应用效果,而评测数据集的质量是评估其能力的核心基准。本文从冷启动阶段的数据集构建出发,系统梳理数据收集、标注、质量评估及……