一、技术突破的起点:从SFT到纯RL的范式转换 DeepSeek R1的核心创新在于摒弃传统监督微调(SFT)路径,构建纯RL驱动的智能体训练框架。这一决策源于对OpenAI o1技术路径的逆向分析:o1虽未公开完整训练细节,但其……