一、传统评估体系的失效:当智能体在简单任务中集体”失语” 2023年发布的ARC-AGI-3基准测试引发行业震动:在完全剥离语言依赖和外部知识库的像素游戏环境中,主流智能体的平均得分不足1%。这个看似矛盾的结果,恰恰……