原文: https://mp.weixin.qq.com/s/fhNRtk0FhK6K9_LBLwbDSg
全文摘要
在人工智能领域,语言代理(Language Agents)的自主学习能力一直是研究热点。传统依赖专家数据的模仿学习(Imitation Learning)存在泛化能力弱、依赖人工标注等问题,而强化学习(Reinforcement Learning)又受限于奖励信号难以获取的困境。近日,来自Meta Superintelligence Labs、FAIR at Meta和The Ohio State University的研究团队提出了一种名为早期经验(Early Experience)的新范式,为语言代理的自主学习开辟了新路径。这项研究不仅解决了现有方法的局限性,还为未来构建更智能的AI系统奠定了基础。
论文地址:https://arxiv.org/abs/2510.08558
论文标题:Agent Learning via Early Experience
论文方法
核心亮点速览
- 新范式提出:提出"早期经验",将代理自身行为及其导致的环境状态变化转化为监督信号,无需外部奖励。
- 双策略驱动:隐式世界建模(Implicit World Modeling)和自我反思(Self-Reflection)两大策略,让代理从经验中学习。
- 全面验证:在8个不同领域(如科学实验、网页导航、工具使用等)和多个模型家族上验证有效性。
- 性能提升:相比模仿学习,成功率平均提升9.6%,泛化能力提升9.4%,且为后续强化学习提供良好基础。
从模仿学习到自主学习:早期经验的桥梁作用
传统方法的局限性
当前语言代理主要依赖两种学习方式:
- 模仿学习:通过专家演示数据训练,但存在数据依赖性强、泛化能力弱的问题。
- 强化学习:依赖环境提供的奖励信号,但许多真实环境(如网页交互)缺乏可验证的奖励机制。
早期经验的创新之处
研究团队提出的早期经验(Early Experience)范式,巧妙地将代理自身行为及其导致的环境状态变化转化为监督信号。这种方法既不需要专家数据,也不依赖外部奖励,而是让代理通过"试错"积累经验,逐步提升决策能力。
核心思想:代理在每个状态生成多个候选动作,执行后观察环境反馈(如网页变化、工具输出等),将这些状态转换作为监督信号进行学习。
论文实验
两大核心策略:隐式世界建模与自我反思
隐式世界建模(Implicit World Modeling)
原理:将代理自身动作导致的环境状态变化视为自然语言预测任务,训练代理预测未来状态。
- 训练过程:代理在专家状态生成多个候选动作,执行后获得环境反馈(自然语言描述的下一状态),通过预测这些状态学习环境动力学。
- 优势:帮助代理理解环境动态,提升对非专家行为的鲁棒性。
实验结果:在ALFWorld和WebShop等环境中,成功率提升5.5%-18.4%。
自我反思(Self-Reflection)
原理:代理比较自身动作与专家动作的差异,生成自然语言解释为何专家动作更优。
- 训练过程:代理生成多个候选动作及其结果,通过大语言模型生成对比解释,形成(状态-解释-动作)三元组作为训练数据。
- 优势:提升代理对决策原则的理解,增强泛化能力。
实验结果:在TravelPlanner和BFCLv3等任务中,成功率提升12.8%-15.0%。
多维度实验验证:性能与泛化能力双突破
实验环境
研究团队在8个不同领域进行了全面验证,包括:
- 具身导航:ALFWorld(家庭任务)
- 科学实验:ScienceWorld(实验室操作)
- 长时序规划:TravelPlanner(旅行规划)
- 工具使用:BFCLv3(多轮API调用)
- 网页导航:WebShop(电商购物)
关键结果
环境 | 模型 | 模仿学习 | 隐式世界建模 | 自我反思 |
---|---|---|---|---|
ALFWorld | Llama-3.2-3B | 78.1% | 83.6% (+5.5) | 85.9% (+7.8) |
WebShop | Llama-3.1-8B | 58.6% | 72.7% (+14.1) | 58.2% (+0.4) |
ScienceWorld | Qwen-2.5-7B | 53.9% | 59.4% (+5.5) | 68.0% (+14.1) |
关键发现:
- 早期经验在所有环境中均优于模仿学习
- 自我反思在需要多步推理的任务中表现更优
- 隐式世界建模在结构化环境中效果显著
未来展望:从早期经验到完全自主学习
局限性
- 长时序信用分配:当前方法主要处理短时序经验,长时序任务仍需探索。
- 环境复杂性:在高度动态的环境中,状态预测难度增加。
潜在方向
- 跨环境迁移:将一个环境中学到的经验迁移到其他领域。
- 持续学习:结合奖励信号,在真实环境中实现持续改进。
- 大规模应用:在真实世界部署,收集有机交互数据驱动策略优化。
结语
"早期经验"范式为语言代理的自主学习提供了新的思路。通过将代理自身行为转化为监督信号,不仅解决了传统方法的局限性,还为未来构建更智能的AI系统奠定了基础。这项研究展示了自主学习的潜力,预示着AI代理将逐步摆脱对人工标注数据的依赖,迈向真正的自主进化。