Skip to content

Xiaobo's Blog

强化学习、语言模型，以及它们底下那点儿数学的随手笔记。

文章 — 2

第一性原理推导 PPO 算法 2025.03.19
不依赖既有优化器，从策略梯度一步一步推到 PPO 的完整损失。

强化学习PPO
大模型强化学习训练中KL散度的梯度估计 2025.03.14
三种估计量、一个 loss，以及 ∇E[·] 与 E[∇·] 之间那条微妙的缝。

强化学习KL 散度理论