一、智能体任务的核心属性:从静态评估到动态交互 传统AI基准测试(如GLUE、SuperGLUE)通过静态数据集衡量模型知识储备,但无法反映真实场景中的动态决策需求。研究团队提出智能体任务的三大核心属性,重新定义了……