Xiaobo's Blog
强化学习、语言模型,以及它们底下那点儿数学的随手笔记。
文章 — 2
-
第一性原理推导 PPO 算法
不依赖既有优化器,从策略梯度一步一步推到 PPO 的完整损失。
-
大模型强化学习训练中KL散度的梯度估计
三种估计量、一个 loss,以及 ∇E[·] 与 E[∇·] 之间那条微妙的缝。
强化学习、语言模型,以及它们底下那点儿数学的随手笔记。
不依赖既有优化器,从策略梯度一步一步推到 PPO 的完整损失。
三种估计量、一个 loss,以及 ∇E[·] 与 E[∇·] 之间那条微妙的缝。