一、后训练的困境:SFT与RL的“双刃剑” 在大模型后训练阶段,监督微调(SFT)和强化学习(RL)是两种主流范式。SFT通过高质量离线数据快速注入知识,具有训练效率高、收敛速度快的优势,但其依赖静态数据分布的特性……