一、技术突破:纯RL训练范式的范式革命 DeepSeek R1的核心突破在于完全摒弃传统监督微调(SFT)路径,构建了”纯RL驱动”的闭环训练体系。这一范式通过三个关键技术模块实现: 1.1 动态奖励函数设计 区别于o1依赖人……