一、数学推理:大模型能力验证的”照妖镜” 在人工智能技术高速发展的当下,大模型在自然语言处理、图像识别等领域展现出惊人能力,但面对小学数学题时却集体遭遇”滑铁卢”。最新基准测试显示,主流闭源模型在包含基……