一、策略梯度算法的数学基础 策略梯度(Policy Gradient, PG)算法通过直接优化策略函数的参数,解决强化学习中”如何决策”的核心问题。其核心思想源于随机策略的梯度估计,数学表达为: ∇θJ(θ) = 𝔼[∇θ logπθ(a|s) ……