一、技术突破:纯RL训练的范式革新 DeepSeek R1的核心突破在于摒弃传统监督微调(SFT)与人类反馈强化学习(RLHF)的复杂流程,采用纯强化学习(Pure RL)架构。这一选择直指大模型训练的两大痛点:数据标注成本高……