一、后训练技术演进:从SFT到RL的范式之争 在大模型后训练阶段,监督微调(SFT)与强化学习(RL)构成两大核心范式。SFT通过注入高质量离线数据(Off-policy)实现快速知识迁移,但其静态数据分布特性导致模型泛化……