MiniRL

该论文是Qwen团队提出的，关于RL稳定性的一篇论文，相应的链接在这里，主要是要解决RL中各个机制实际的作用，以及关于训推一致性的探讨，尤其是对于Moe模型

实验在30B的Moe模型上

RL最大的不匹配其实是reward是序列级别的，但是优化是token级别的，论文指出，只有在训推尽可能一致的时候，优化token级别的目标就可以提升序列级别的奖励

训推的不一致从两个方面产生

基于这些思考之后，我们从最初的reinforce算法开始，做最小的改动

而针对于Moe，论文也提出了两种方案来解决Moe的训推不一致

这两个方案都改动了当前token需要选择的专家，因此都有偏差