DeepSpeed-Chat RLHF 阶段代码解读(2) —— PPO 阶段 一、PPO阶段在RLHF中的定位与核心作用 在RLHF(Reinforcement Learning from Human Feedback)流程中,PPO(Proximal Policy Optimization)阶段承担着策略优……