R-HORIZON：突破长链推理瓶颈，大模型复杂推理能力评估新范式 - 云主机网

最新文章

R-HORIZON：突破长链推理瓶颈，大模型复杂推理能力评估新范式

一、长链推理能力：大模型进化的关键瓶颈当前主流大模型评测体系存在结构性缺陷——MATH500、AIME等基准测试聚焦孤立问题，要求模型仅完成单步推理。然而真实场景中，数学证明、代码调试、多智能体协作等任务往往需……

2026年1月21日互联网