一、MLE-Bench:AI工程化的”奥林匹克” 作为智能体领域的权威评测体系,MLE-Bench构建了包含12个核心业务场景的测试矩阵,涵盖电商推荐、金融风控、工业质检等复杂场景。每个场景均设置多轮决策任务链,要求智能体……