当前位置：首页 > news >正文

GSPO

news 2025/10/13 14:25:18

暂时无法在飞书文档外展示此内容

Toy实验现象

问题引出

Grpo的loss函数中token-level的重要性采样的ratio会导致较大的训练梯度noise
在长序列的情况下，clip的机制会加一步累积noise的方差

token-level的IS ratio方差大，不稳定

方法设计

Sequence-Level IS Ratio

仅计算一个sequence的IS ratio，这里使用的是seqeunce ratio在长度上的逆次方，主要是normalize的作用。

进而将sequence ratio的量级->token ratio的量级

Token-Level GSPO

是sequence-level的一般式，针对token-advantage不同的场景（PPO）

token-level IS ratio：sequence IS ratio数值* token IS ratio的方向（反向的梯度）

前向传播：每个token的IS ratio的数值是一样的，都是sequence-level ratio

反向传播：当token的A都相同时，与sequence-level GSPO相同，

实验结果

GSPO裁剪token的数量更多（因为是一整个sequence的clip），但acc更高

节省flops计算资源，效果更好

得出结论

GSPO解决了GRPO中重要性采样粒度与Advantage粒度不对齐的问题

通过clip更多的token，减少反向传播的计算量，并提高了acc

疑问

Q：如何选取gspo的clip的上下界，sequence IS ratio 可以看作是token IS ratio的正则化，那么偏差确实会小一些，论文给出的是【3e-4，4e-4】，原始的grpo是【0.2,0.27】。

为什么一个right clip大，一个right clip小呢。。。

A： grpo中Right clip大是为了更好的探索小概率token的，但是gspo却抑制小概率sequence的探索。可能是因为sequence的normalize后稳定性很好，那么小概率的sequence大概率是不可取的，也就没有探索的必要。

查看全文

http://www.hskmm.com/?act=detail&tid=30091

日记6

日记5

日记7

软件为什么卸载不了？流氓软件克星？专业流氓卸载工具？强力卸载软件Geek免安装版

流量突然提升100倍QPS，怎么办？

10/13

CF1882E1 Two Permutations (Easy Version)

2025年10月实验室净化订做厂家最新推荐排行榜，专业定制与高效服务口碑之选

20234320 2025-2026-1 《网络与系统攻防技术》实验一实验报告

[GenAI] 大模型微调

[GenAI] LoRA微调

2025年10月保洁公司最新权威推荐榜：专业清洁与高效服务的品质之选

基于单片机的汽车防碰撞刹车系统（论文+源码） - 实践

git submodule

2025年10月确有专长培训机构最新推荐榜单：专业课程与高通过率口碑之选

有源探头DC与RMS参数详解：选型与应用指南

Objective-C Runtime 中的关联对象(Associated Object)方法

2025年10月无锡公考培训机构最新权威推荐榜单：专业师资与高通过率口碑之选

数据敏感型企业为何优选吱吱企业即时通讯？其私有化部署优势详解

学习第一天

AIVILIZATION相关文件记录

Toy实验现象

问题引出

方法设计

Sequence-Level IS Ratio

Token-Level GSPO

实验结果

得出结论

疑问

相关文章：