一、ARC-AGI-2:通用人工智能的”推理试金石” 在AI技术演进中,衡量模型推理能力的标准始终面临挑战。传统基准测试侧重知识记忆(如MMLU)或简单逻辑(如GSM8K),而ARC-AGI-2(Abstract Reasoning Corpus for Arti……