一、传统AI数学评估体系的局限性 当前主流的AI数学能力评估框架主要依赖两类数据源:一是国际数学奥林匹克竞赛(IMO)等赛事的历年真题,二是线性代数、微积分等教材的标准化习题。这类测试在早期AI模型能力验证中……