全球AI编程大考：LLM集体折戟，工业级能力评估体系亟待革新 - 云主机网

最新文章

全球AI编程大考：LLM集体折戟，工业级能力评估体系亟待革新

一、工业级编程基准测试：一场颠覆认知的”压力测试” 在近期公布的SWE-Bench Pro评估结果中，全球顶尖语言模型遭遇集体滑铁卢：某领先模型以23.3%的得分勉强登顶，第二名仅获22.7%，其余模型得分均低于15%。这一结……

2026年4月9日互联网