Xiaobo's Blog
en

 

Xiaobo's Blog

强化学习、语言模型,以及它们底下那点儿数学的随手笔记。

文章 — 2

  1. 第一性原理推导 PPO 算法

    不依赖既有优化器,从策略梯度一步一步推到 PPO 的完整损失。

    强化学习PPO

  2. 大模型强化学习训练中KL散度的梯度估计

    三种估计量、一个 loss,以及 ∇E[·] 与 E[∇·] 之间那条微妙的缝。

    强化学习KL 散度理论