一、技术背景:RL训练为何成为推理模型新范式? 传统大模型训练依赖监督微调(SFT)和人类反馈强化学习(RLHF),但存在两大局限:其一,标注数据的质量和规模受限于人力成本;其二,人类反馈难以覆盖复杂推理场景……