LLM RL Theory

DAPO & GSPO 对于 GRPO 缺陷的优化
JustRL 用最简单的配置实现RL的性能持续提升
https://arxiv.org/pdf/2511.19942 Differential Smoothing
https://arxiv.org/abs/2505.22617 RL 中的熵机制
https://arxiv.org/pdf/2512.01374 MiniRL：训推一致性的RL
https://arxiv.org/abs/2512.07783 分析预训练，中训练，RL对于LLM推理能力的影响，构建了一个尽可能消除知识重叠的训练数据集，使得我们可以更好地分析每个训练阶段对模型能力带来地影响

对于LLM的RL，统一的视角应该是优化一个reward的期望值，并且附加一些截断，KL等技巧

RL现阶段有两个重要的命题

训练和推理的一致性：尤其是对于Moe模型，因为现在更新模型的时候总是拆分minibatch，所以都有一定的off-policy。并且当推理框架和训练框架分离，使用不同的算子库的时候，存在精度等问题导致的不一致性
探索性和优化的平衡：如果简单地对奖励进行优化，会导致其探索性快速下降，模型陷入局部最优，不再提升性能，表现为模型的熵下降，以及模型的Pass@1的性能提升的同时，Pass@k的性能不再提升

很多的论文都围绕这个部分来展开

1. Basic RL algorithm

PPO

importance ratio + Advantage 优化，当Advantage 大于 0 的时候，该优化目标会迫使importance ratio变大

PPO的advantage计算是通过reward model和value model共同完成的，Reward model计算即时奖励，Value model预估外来的奖励，随后通过GAE来计算token level advantage

随后依次更新Value model和policy model的梯度

GRPO

GRPO通过一个group里的优势计算，来绕过value model的设计，使得训练成本大幅度下降，通过计算该条回答的reward相比于这个group的平均reward的优势，来衡量advantage

DAPO

DAPO的方案对于GRPO的范式做了一系列的优化，增加了很多Tricks

Clip Higher 原本的clip的上界过低，导致RL只会优化高概率高advantage的token，以至于其会迅速陷入局部最优，通过调高Clip的界限，可以有效帮助一些低概率高Advantage的token进行优化，有效提高模型的上限
Dynamic Sampling 在训练中增加筛选，去掉全对和全错的样本
Token-level Policy Gradient Loss 让一个mini-batch内部 repsonse token 的advantage权重相同
Overlong Reward Shaping 增加response length的惩罚项数

GSPO

将token level的advantage和importance ratio改为sequence level，importance ratio改为

目标函数改为

2. Training-Rollout Consistency

2.1. Multi-Turn Agent Training

2.2. Precision Consistency

Nvidia在2月份出了一篇关于训推精度一致性的论文 Jet RL ，对于RL而言，目前来看效率上的block就在rollout上面，因此最直接的想法我们会将直接推理加速的方案应用在RL的rollout上面，比如low-bit量化和稀疏计算。这篇论文就是研究了FP8 Rollout的技术，但是先前的低精度的rollout会和后续BF16的训练形成不一致，形成Off-Policy。

这篇论文在Verl上构建一个Rollout和Train均为FP8的RL过程

这个过程有如下的难点

RL过程中，参数在频繁地更新，传统的FP8量化方案，需要每次参数更新之后再次计算缩放系数（重新校准），造成额外开销
如果不进行校准，直接将参数截断为FP8，会导致训练的不稳定，尤其是面对长文本和困难任务中

反向传播的梯度保持BF16，其余内容全部转换成FP8。总结来看就是所有的算子都保持FP8，但是输出梯度的时候转换成BF16

LLM RL Theory

1. Basic RL algorithm

2. Training-Rollout Consistency

2.1. Multi-Turn Agent Training

2.2. Precision Consistency

Other Topics

1. Bottom-up Policy Optimization

2. KL in RL