当前位置: 首页 > news >正文

Search-R1论文浅析与代码实现

GitHub: https://github.com/PeterGriffinJin/Search-R1

论文: link1, link2

Motivation

使用seach engine给reasoning LLM赋能

Method

image-20251021113633265

在PPO的基础上,基于给定的Search Egine \(R\),进行轨迹生成。

\[J_{PPO}(\theta) = \mathbb{E}_{(q,a)\sim\mathcal{D}, o\sim{\pi_{old}(\cdot|q;R)}}\frac{1}{\sum_{t=1}^{|o|}I(o_t)} \min[\frac{\pi_{\theta}(o_t|q, o_{<t};R)}{\pi_{old}(o_t|q,o_{<t};R)} A_t, clip(1-\epsilon, 1+\epsilon, \frac{\pi_{\theta}(o_t|q,o_{<t};R)}{\pi_{old}(o_t|q, o_{<t};R)})A_t] \]

其中需要对\(R\)返回的token进行mask

\[I(o_t) = \begin{cases} 0, & o_t\mathrm{\ is\ a\ retrived\ token};\\ 1, & otherwise; \end{cases} \]

Experiments

image-20251021114918946

默认使用PPO,整体效果来看search-r1强化是有效的。training dataset来自NQ和Hotpot QA

  • PPO vs GRPO

    认为PPO比GRPO更加稳定,效果更好;GRPO收敛更快

    image-20251021115656035

    image-20251021115618888

  • Instruct model vs base model

    认为虽然instruct model在最开始的reward要优于base model,但是在step的后期,两者reward是可比的,且base model的效果优于instruct model。

    (我认为,这里instruct好于base,可能是因为instruct后,模型的多样性下降了(因为RL的对齐),导致模型在search task的探索能力下降。但是,WebDancer等文章均使用的是Instruct model,我认为是那些工作 并不是一上来就search RL的,而是先做RFT的SFT,想让instruct model适应RL的格式,并注入search task的领域知识(planing能力、工具调用能力、总结能力等等)。如果是对base model做post-training的RFT(数据量可能不大),base model会出现指令不遵循的问题。因此在SFT+RL的后续WebAgent的工作中,一半以Instruct model为基座。)

    image-20251021115930524

    image-20251021115918404

  • Response length and valid study

    • early stage:response length明显下降,同时reward有小幅度提升(更好的理解search 任务,输出更精简)
    • latter stage:response length回升,reward也提升(可以发现是seach call的次数提升导致)

    image-20251021120743669

  • ablation of retrived token mask

    mask是必要的,因为model的预测目标本就不是 预测出retrieved token,而是学会工具调用与计划总结

    image-20251021122034355

    image-20251021121917794

  • Number of Retrieved Passages Study in SEARCH-R1 Training

    召回的docs不是越多越好(actor model总结时会更容易出现幻觉或是遗漏细节),也不是越少越好(巧妇难为无米之炊)

    image-20251021122054986

  • group size of GRPO

    GRPO的size 大的话,效果好收敛快,但是不太稳定(感觉是论文工作设计有问题,我没有遇到过这种reward sharp decrease)

    image-20251021122255511

Conclusion

提出了agent下的RL方法,但是没有构建sft的轨迹数据,导致无法学到 planing规划、单一工具调用、多工具关系的能力。

代码实现

待更新。。。

http://www.hskmm.com/?act=detail&tid=35677

相关文章:

  • Ai元人文构想:技术介入人文领域的辩证思考与路径探索
  • 2025年10月医用面膜产品推荐:权威对比评测榜助术后修护精准决策
  • 2025年10月电动叉车销售公司推荐:五强对比评测榜
  • 类方法和实例方法区别 flutter
  • 今天给电脑安装了新华财经
  • 2025电子数据取证分析师Wp
  • 2025年10月仓储管理系统推荐榜:鸿链云仓领衔对比评测排行
  • NITEX:构建时尚新供应链的数字平台与技术架构
  • 电子人速囤!正点原子万用表,电烙铁,电桥镊子等商品!
  • 2025年10月超声波清洗机厂家榜单:十家主流厂商横向对比
  • 2025年10月超声波清洗机厂家评价榜:实力对比一览
  • 2025年10月炒股开户券商评测榜:广发证券领衔全维度对比
  • 2025年10月超声波清洗机厂家评测榜:十强对比与权威数据解读
  • 2025年10月超声波清洗机厂家推荐榜:十强对比评测
  • 2025 年桥梁护栏厂家最新推荐排行榜:聚焦安全防护与耐用性能的实力企业甄选指南
  • 在Java中,如何实现封装
  • 2025年10月超声波清洗机厂家排行:十家主流企业深度评测
  • 2025年10月不锈钢水箱厂家推荐榜:十强对比评测
  • 2025年10月不锈钢水箱厂家排行:十家对比评价
  • 2025年10月长白山旅游度假酒店推荐:口碑榜与实景对比排行
  • 2025 年最新推荐北京 / 陕西百度官网认证代理商榜单:全方位评估服务实力助企业选靠谱机构
  • 2025年10月长白山度假酒店推荐:民俗与国际范双榜对比
  • skynet.dispatch 使用详解
  • 深入解析:开源项目net-radio-archive常见问题解决方案
  • 元推理:自指生产力,自洽生产关系
  • 2025 年桥梁护栏源头厂家最新推荐排行榜:聚焦优质企业,助力桥梁建设选对护栏供应商
  • skynet.start 的作用详细解析
  • 2025 年干燥机厂家最新推荐排行榜:聚焦实验室 / 工业用优质设备,精选实力企业权威呈现
  • 英语的基本句型
  • MySQL学习笔记