第一性原理推导 PPO 算法

不依赖既有优化器，从策略梯度一步一步推到 PPO 的完整损失。

2025.03.19 ·约 5 分钟 ·强化学习PPO

¶强化学习基础

对于大语言模型(LLM)，在强化学习的语言中，状态是token序列的每个前缀，动作是新的token：

τ = (s_{0}, a_{1}, s_{1}, a_{2}, ..., a_{T}, s_{T})

是一个长度为 $T$ 的token序列，其中初始状态 $s_{0}$ 是prompt。我们假设：

prompt的分布为 $s_{0} \sim ρ_{0} (\cdot)$ ， $ρ_{0}$ 与LLM无关，因为它是由人类选择的。
新token的分布为 $a_{t} \sim π_{θ} (\cdot ∣ s_{t - 1})$ ，其中 $π_{θ}$ 是LLM，通常是一个多头多层的Transformer神经网络。
前缀和新token之间的状态转移关系是 $s_{t} \sim ρ (\cdot ∣ s_{t - 1}, a_{t})$ 。目前，由于 $a_{t}$ 是下一个token，所以这个关系是确定性的 $s_{t} = (s_{t - 1}, a_{t})$ 。

¶优化目标

θ max E_{x \sim D_{prompt}} E_{y \sim π_{θ} (\cdot ∣ x)} [r (y ∣ x) - β KL (π_{θ} (y ∣ x), π_{ref} (y ∣ x))],

其中 $r (y ∣ x) = \frac{1}{T} \sum_{t = 1}^{T} r (y_{t} ∣ x, y_{< t})$ 是响应序列中每个token的平均奖励，并且

K L (π_{θ} (y ∣ x), π_{ref} (y ∣ x)) = \frac{1}{T} t = 1 \sum T E_{y_{t} \sim π_{θ} (\cdot ∣ x, y_{< t})} lo g (\frac{π _{θ} ( y _{t} ∣ x , y _{< t} )}{π _{ref} ( y _{t} ∣ x , y _{< t} )}),

这是策略模型和参考模型之间下一个token分布的平均KL散度。

四模型架构
- 策略模型 $π_{θ} (y ∣ x)$ (参与训练)，一个LLM；
- 参考模型 $π_{ref} (y ∣ x)$ (冻结)，一个LLM；
- 价值模型 $v_{μ} (y ∣ x)$ (参与训练)，一个LLM + 线性头；
- 奖励模型 $r (y ∣ x)$ (冻结)，一个LLM + 线性头。

¶算法

设 $T$ 是响应序列中的token数量。对于LLM，状态由token序列前缀定义 $s_{t} = [x, y_{< t}]$ ，动作由下一个token定义 $a_{t} = y_{t}$ 。

合并奖励和KL惩罚：

r (y_{t} ∣ x, y_{< t}) \leftarrow r (y_{t} ∣ x, y_{< t}) - β KL_{t};

策略梯度：

\nabla_{θ} E_{y \sim π_{θ} (\cdot ∣ x)} [r (y)] = E [\nabla_{θ} lo g π_{θ} (y) \cdot r (y)] = \frac{1}{T} t = 1 \sum T E_{y} [\nabla_{θ} lo g π_{θ} (y_{t} ∣ x, y_{< t}) k = t \sum T r (y_{k} ∣ x, y_{< k})] = \frac{1}{T} t = 1 \sum T E_{y_{< t}} E_{y_{t} ∣ y_{< t}} [\nabla_{θ} lo g π_{θ} (y_{t} ∣ x, y_{< t}) (E_{y_{> t} ∣ y_{\leq t}} [k = t \sum T r (y_{k} ∣ x, y_{< k})] - E_{y_{\geq t} ∣ y_{< t}} [k = t \sum T r (y_{k} ∣ x, y_{< k})])] := \frac{1}{T} t = 1 \sum T E_{y_{< t}} E_{y_{t} ∣ y_{< t}} [\nabla_{θ} lo g π_{θ} (y_{t} ∣ x, y_{< t}) \cdot (Q^{π_{θ}} (y_{t}, [x, y_{< t}]) - V^{π_{θ}} ([x, y_{< t}]))] := \frac{1}{T} t = 1 \sum T E_{y_{< t}} E_{y_{t} ∣ y_{< t}} [\nabla_{θ} lo g π_{θ} (y_{t} ∣ x, y_{< t}) \cdot A^{π_{θ}} (a_{t}, s_{t})] = \nabla_{θ} \frac{1}{T} t = 1 \sum T E_{y_{< t}} E_{y_{t} ∣ y_{< t}} [A^{π_{θ}} (a_{t}, s_{t})] = \frac{1}{T} t = 1 \sum T E_{y_{\leq t}} [\nabla_{θ} lo g π_{θ} (y_{\leq t} ∣ x) \cdot A^{π_{θ}} (a_{t}, s_{t})];

其中  $A_{t} := A^{π_{θ}} (a_{t}, s_{t}) = Q^{π_{θ}} (a_{t}, s_{t}) - V^{π_{θ}} (s_{t})$  是优势函数。我们将使用神经网络  $v_{μ} (s)$  来估计价值函数  $V^{π_{θ}} (s)$ 。

估计策略梯度：通过蒙特卡罗采样估计梯度（注意我们不能直接获得优势函数 $A_{t}$ ）。

\nabla_{θ} E_{y \sim π_{θ} (\cdot ∣ x)} [r (y)] \approx \frac{1}{B} i = 1 \sum B \frac{1}{T} t = 1 \sum T \nabla_{θ} lo g π_{θ} (y_{\leq t}^{i} ∣ x^{i}) \cdot A^{π_{θ}} (a_{t}^{i}, s_{t}^{i}), y^{i} \sim π_{θ} (\cdot ∣ x^{i});

通过token级别采样估计KL散度：

KL = t = 1 \sum T KL_{t} = t = 1 \sum T lo g (\frac{π _{θ} ( y _{t}^{i} ∣ x ^{i} , y _{< t}^{i} )}{π _{ref} ( y _{t}^{i} ∣ x ^{i} , y _{< t}^{i} )});

使用广义优势估计（GAE）估计优势函数 $A_{t}$ ：引入参数 $γ \in (0, 1)$ ，通过降低长期奖励的权重来减少方差，但代价是引入偏差。优势函数的估计有两种直接的方法，但他们各有利弊：
- TD残差（低方差但高偏差）：

\hat{A}_{t} (x, y) = r (a_{t} ∣ s_{t}) + γ v_{μ} (s_{t + 1}) - v_{μ} (s_{t});

累积（低偏差但高方差）：

\hat{A}_{t} (x, y) = k = t \sum T γ^{k - t} r (a_{k} ∣ s_{k}) - v_{μ} (s_{t});

考虑多步TD残差：

\hat{A}_{t}^{(1)} \hat{A}_{t}^{(2)} \hat{A}_{t}^{(3)} \hat{A}_{t}^{(k)} = r_{t} + γ v_{μ} (s_{t + 1}) - v_{μ} (s_{t}); = r_{t} + γ r_{t + 1} + γ^{2} v_{μ} (s_{t + 2}) - v_{μ} (s_{t}); = r_{t} + γ r_{t + 1} + γ^{2} r_{t + 2} + γ^{3} v_{μ} (s_{t + 3}) - v_{μ} (s_{t}); = r_{t} + γ r_{t + 1} + \dots + γ^{k - 1} r_{t + k - 1} + γ^{k} v_{μ} (s_{t + k}) - v_{μ} (s_{t});

GAE使用 $λ$ -指数加权的无限多步TD残差，这样可以平衡方差与偏差的tradeoff：

\hat{A}_{t} (x, y) := (1 - λ) (\hat{A}_{t}^{(1)} + λ \hat{A}_{t}^{(2)} + \dots + λ^{k - 1} \hat{A}_{t}^{(k)} + \dots) = δ_{t} + γ λ δ_{t + 1} + \dots + (γ λ)^{k} δ_{t + k} + \dots,

其中 $δ_{t} = r (a_{t} ∣ s_{t}) + γ v_{μ} (s_{t + 1}) - v_{μ} (s_{t})$ 。对于有限时域 $T$ ，取 $\hat{A}_{t} = \sum_{k = 0}^{T - t - 1} (γ λ)^{k} δ_{t + k}$ 。 $γ$ 和 $λ$ 在原始论文中都是方差减小参数。

最大化优势（Actor损失）：

【这里好像有误！PPO似乎也犯了用无偏估计的梯度来做梯度的无偏估计的错误！】

我们想要更新的是分布中的参数，但却只能拿到从这个分布抽出来的样本，所以需要使用重要性采样技巧，利用一个proposal分布来估计target分布的期望，PPO中的proposal分布选取为 $y \sim π_{θ_{old}} (\cdot ∣ x)$ （外循环中的上一次迭代）。

θ max L_{p o l i cy} (θ) = \frac{1}{B T} i = 1 \sum B t = 1 \sum T \hat{A}_{t}^{i} \cdot \frac{π _{θ} ( y _{t}^{i} ∣ x ^{i} , y _{< t}^{i} )}{π _{θ_{old}} ( y _{t}^{i} ∣ x ^{i} , y _{< t}^{i} )} \approx \frac{1}{B} i = 1 \sum B \frac{1}{T} t = 1 \sum T E_{a_{t}^{i} \sim π_{θ_{old}} (\cdot ∣ s_{t}^{i})} [\hat{A}_{t}^{i} \cdot \frac{π _{θ} ( a _{t}^{i} ∣ s _{t}^{i} )}{π _{θ_{old}} ( a _{t}^{i} ∣ s _{t}^{i} )}] = \frac{1}{B} i = 1 \sum B \frac{1}{T} t = 1 \sum T E_{a_{t}^{i} \sim π_{θ} (\cdot ∣ s_{t}^{i})} [\hat{A}_{t}^{i}] \approx \frac{1}{B} i = 1 \sum B \frac{1}{T} t = 1 \sum T \cdot A^{π_{θ}} (a_{t}^{i}, s_{t}^{i});

更新分布参数的另一种方法是使用对数变换 $\nabla_{θ} E_{π_{θ}} [f] = E_{π_{θ}} [\nabla_{θ} lo g π_{θ} \cdot f]$ ，但这可能导致高方差。然而，对于微调过的LLM，方差可能不会那么大。

最小化价值函数近似误差（Critic损失）：

μ min L_{v a l u e} (μ) = \frac{1}{B T} i = 1 \sum B t = 1 \sum T (v_{μ} ([x^{i}, y_{< t}^{i}]) - R_{t} (x^{i}, y^{i}))^{2};

其中 $R_{t} (x^{i}, y^{i}) = \hat{A}_{t} (x^{i}, y^{i}) + v_{μ_{old}} ([x^{i}, y_{< t}^{i}])$ 是回报。注意，回报中涉及的所有值都是由旧批次计算的，而策略使用当前批次。我们不使用当前批次中的值，因为它可能导致优势消失（价值模型过拟合到当前批次上，导致更新时的优势值很小）。在实践中，我们在策略更新之前还会对价值函数先进行几步预热更新。

最终损失：

L_{P P O} (θ, μ) = - L_{p o l i cy} (θ) + c \cdot L_{v a l u e} (μ) .