暂时无法在飞书文档外展示此内容
Toy实验现象
问题引出
-
Grpo的loss函数中token-level的重要性采样的ratio会导致较大的训练梯度noise
-
在长序列的情况下,clip的机制会加一步累积noise的方差
token-level的IS ratio方差大,不稳定
方法设计
-
Sequence-Level IS Ratio
仅计算一个sequence的IS ratio,这里使用的是seqeunce ratio在长度上的逆次方,主要是normalize的作用。
进而将sequence ratio的量级->token ratio的量级
-
Token-Level GSPO
是sequence-level的一般式,针对token-advantage不同的场景(PPO)
token-level IS ratio:sequence IS ratio数值* token IS ratio的方向(反向的梯度)
前向传播:每个token的IS ratio的数值是一样的,都是sequence-level ratio
反向传播:当token的A都相同时,与sequence-level GSPO相同,
实验结果
GSPO裁剪token的数量更多(因为是一整个sequence的clip),但acc更高
节省flops计算资源,效果更好
得出结论
GSPO解决了GRPO中重要性采样粒度与Advantage粒度不对齐的问题
通过clip更多的token,减少反向传播的计算量,并提高了acc
疑问
Q:如何选取gspo的clip的上下界,sequence IS ratio 可以看作是token IS ratio的正则化,那么偏差确实会小一些,论文给出的是【3e-4,4e-4】,原始的grpo是【0.2,0.27】。
为什么一个right clip大,一个right clip小呢。。。
A: grpo中Right clip大是为了更好的探索小概率token的,但是gspo却抑制小概率sequence的探索。可能是因为sequence的normalize后稳定性很好,那么小概率的sequence大概率是不可取的,也就没有探索的必要。