一、智能体评估的范式革新:从单一任务到跨场景迁移 传统智能体评估体系长期面临”能力孤岛”困境:在特定任务中表现优异的模型,一旦遭遇任务边界变化或环境扰动,性能往往出现断崖式下降。某主流云服务商2023年发……