Swarm sAmpling Policy Optimization,简称SAPO,这个名字听起来有点学术,但它解决的问题很实际。大规模语言模型的后训练一直是个让人头疼的事情——要么资源不够,要么效率太低。SAPO提出了一种去中心化的异步RL方案,让各个计算节点之间可以互相分享rollouts,避开了传统并行化训练的各种瓶颈。
论文的实验结果。在成千上万个社区节点的测试中,这套方法能带来94%的回报提升。
https://avoid.overfit.cn/post/7e17063b4d354b1c80a7b3e933dded91