当前位置: 首页 > news >正文

Meta推出Agent Learning via Early Experience,推动语言代理自主学习新范式

image

原文: https://mp.weixin.qq.com/s/fhNRtk0FhK6K9_LBLwbDSg

全文摘要

在人工智能领域,语言代理(Language Agents)的自主学习能力一直是研究热点。传统依赖专家数据的模仿学习(Imitation Learning)存在泛化能力弱、依赖人工标注等问题,而强化学习(Reinforcement Learning)又受限于奖励信号难以获取的困境。近日,来自Meta Superintelligence Labs、FAIR at Meta和The Ohio State University的研究团队提出了一种名为早期经验(Early Experience)的新范式,为语言代理的自主学习开辟了新路径。这项研究不仅解决了现有方法的局限性,还为未来构建更智能的AI系统奠定了基础。

论文地址:https://arxiv.org/abs/2510.08558

论文标题:Agent Learning via Early Experience

论文方法

核心亮点速览

  • 新范式提出:提出"早期经验",将代理自身行为及其导致的环境状态变化转化为监督信号,无需外部奖励。
  • 双策略驱动:隐式世界建模(Implicit World Modeling)和自我反思(Self-Reflection)两大策略,让代理从经验中学习。
  • 全面验证:在8个不同领域(如科学实验、网页导航、工具使用等)和多个模型家族上验证有效性。
  • 性能提升:相比模仿学习,成功率平均提升9.6%,泛化能力提升9.4%,且为后续强化学习提供良好基础。

从模仿学习到自主学习:早期经验的桥梁作用

传统方法的局限性

当前语言代理主要依赖两种学习方式:

  1. 模仿学习:通过专家演示数据训练,但存在数据依赖性强、泛化能力弱的问题。
  2. 强化学习:依赖环境提供的奖励信号,但许多真实环境(如网页交互)缺乏可验证的奖励机制。

早期经验的创新之处

研究团队提出的早期经验(Early Experience)范式,巧妙地将代理自身行为及其导致的环境状态变化转化为监督信号。这种方法既不需要专家数据,也不依赖外部奖励,而是让代理通过"试错"积累经验,逐步提升决策能力。

核心思想:代理在每个状态生成多个候选动作,执行后观察环境反馈(如网页变化、工具输出等),将这些状态转换作为监督信号进行学习。

论文实验

1

两大核心策略:隐式世界建模与自我反思

隐式世界建模(Implicit World Modeling)

原理:将代理自身动作导致的环境状态变化视为自然语言预测任务,训练代理预测未来状态。

  • 训练过程:代理在专家状态生成多个候选动作,执行后获得环境反馈(自然语言描述的下一状态),通过预测这些状态学习环境动力学。
  • 优势:帮助代理理解环境动态,提升对非专家行为的鲁棒性。

实验结果:在ALFWorld和WebShop等环境中,成功率提升5.5%-18.4%。

自我反思(Self-Reflection)

原理:代理比较自身动作与专家动作的差异,生成自然语言解释为何专家动作更优。

  • 训练过程:代理生成多个候选动作及其结果,通过大语言模型生成对比解释,形成(状态-解释-动作)三元组作为训练数据。
  • 优势:提升代理对决策原则的理解,增强泛化能力。

实验结果:在TravelPlanner和BFCLv3等任务中,成功率提升12.8%-15.0%。

多维度实验验证:性能与泛化能力双突破

实验环境

研究团队在8个不同领域进行了全面验证,包括:

  • 具身导航:ALFWorld(家庭任务)
  • 科学实验:ScienceWorld(实验室操作)
  • 长时序规划:TravelPlanner(旅行规划)
  • 工具使用:BFCLv3(多轮API调用)
  • 网页导航:WebShop(电商购物)

关键结果

环境 模型 模仿学习 隐式世界建模 自我反思
ALFWorld Llama-3.2-3B 78.1% 83.6% (+5.5) 85.9% (+7.8)
WebShop Llama-3.1-8B 58.6% 72.7% (+14.1) 58.2% (+0.4)
ScienceWorld Qwen-2.5-7B 53.9% 59.4% (+5.5) 68.0% (+14.1)

关键发现:

  • 早期经验在所有环境中均优于模仿学习
  • 自我反思在需要多步推理的任务中表现更优
  • 隐式世界建模在结构化环境中效果显著

未来展望:从早期经验到完全自主学习

局限性

  • 长时序信用分配:当前方法主要处理短时序经验,长时序任务仍需探索。
  • 环境复杂性:在高度动态的环境中,状态预测难度增加。

潜在方向

  • 跨环境迁移:将一个环境中学到的经验迁移到其他领域。
  • 持续学习:结合奖励信号,在真实环境中实现持续改进。
  • 大规模应用:在真实世界部署,收集有机交互数据驱动策略优化。

结语

"早期经验"范式为语言代理的自主学习提供了新的思路。通过将代理自身行为转化为监督信号,不仅解决了传统方法的局限性,还为未来构建更智能的AI系统奠定了基础。这项研究展示了自主学习的潜力,预示着AI代理将逐步摆脱对人工标注数据的依赖,迈向真正的自主进化。

http://www.hskmm.com/?act=detail&tid=32498

相关文章:

  • Fiddler And LINQ - 特洛伊
  • 计算机视觉在自动化质检中的应用
  • 动态加速中优化失败路径反馈的方法
  • 铜价冲击下,如何“锁住”母排利润?
  • 前端快速开发工具推荐与实战 让开发速度提升 3 倍的完整工具链
  • js代码、js文件混淆、加密
  • Salesforce推出AI版Setup,说句话就能搞定配置?
  • 10.16读书报告
  • 火山引擎Data Agent再拓新场景,重磅推出用户研究Agent
  • 元推理:哥德尔搞不完定理,翻来覆去的搞。。。。
  • Matlab选择常见颜色
  • HyperWorks许可状态监控
  • 2025年纺丝机实力源头靠谱优质口碑厂家推荐,知名品牌纺丝机生产商哪家好?
  • 2025 年防静电地板源头厂家最新推荐榜单:权威品牌实力展现,助力各行业精准挑选优质产品
  • PostgreSQL社区CUUG 院校行 - 内蒙古农业大学计算机与信息工程学院
  • 2025 年激光焊锡源头厂家最新推荐排行榜:覆盖多行业需求,助力企业精准挑选优质设备供应商
  • 2025年西安买房攻略Top10:揭秘高性价比学区房与第四代住宅新趋势
  • 2025年西安购房热点:学区房与地铁盘终极指南
  • 2025年铝复合板厂家Top10排名:一站式服务引领行业新潮流
  • 2025年铝复合板厂家十大排名榜单:行业权威推荐与选择指南
  • 2025年铝复合板厂家综合实力排行榜TOP10:一站式服务成行业新趋势
  • 2025年市面上桥架品牌Top10权威推荐榜:专业选购指南
  • 2025年市面上桥架品牌排行榜前十强权威解析
  • 2025年桥架品牌综合实力排行榜:十大优质供应商权威评测
  • 客户案例 | 未来生物甄知科技,在SAP架构中搭建IT运维智能引擎
  • keycloak~标准的国际化设计
  • 微擎:让每个创意都能开花的小程序生态引擎
  • 哥德尔不完备定理中的完备是什么?是还原论证的具足幻想。不还原就是完备,哥德尔搞不完定理
  • 2025 年最新软瓷生产厂家推荐榜单:聚焦前沿技术与优质服务,助力精准筛选可靠软瓷材料供应商软瓷墙砖/软墙砖/外墙软瓷砖/外墙软瓷片厂家推荐
  • 百度地图打开地图不显示具体内容