当前位置：首页 > news >正文

Meta推出Agent Learning via Early Experience，推动语言代理自主学习新范式

news 2025/10/16 18:15:10

原文: https://mp.weixin.qq.com/s/fhNRtk0FhK6K9_LBLwbDSg

全文摘要

在人工智能领域，语言代理（Language Agents）的自主学习能力一直是研究热点。传统依赖专家数据的模仿学习（Imitation Learning）存在泛化能力弱、依赖人工标注等问题，而强化学习（Reinforcement Learning）又受限于奖励信号难以获取的困境。近日，来自Meta Superintelligence Labs、FAIR at Meta和The Ohio State University的研究团队提出了一种名为早期经验（Early Experience）的新范式，为语言代理的自主学习开辟了新路径。这项研究不仅解决了现有方法的局限性，还为未来构建更智能的AI系统奠定了基础。

论文地址：https://arxiv.org/abs/2510.08558

论文标题：Agent Learning via Early Experience

论文方法

核心亮点速览

新范式提出：提出"早期经验"，将代理自身行为及其导致的环境状态变化转化为监督信号，无需外部奖励。
双策略驱动：隐式世界建模（Implicit World Modeling）和自我反思（Self-Reflection）两大策略，让代理从经验中学习。
全面验证：在8个不同领域（如科学实验、网页导航、工具使用等）和多个模型家族上验证有效性。
性能提升：相比模仿学习，成功率平均提升9.6%，泛化能力提升9.4%，且为后续强化学习提供良好基础。

从模仿学习到自主学习：早期经验的桥梁作用

传统方法的局限性

当前语言代理主要依赖两种学习方式：

模仿学习：通过专家演示数据训练，但存在数据依赖性强、泛化能力弱的问题。
强化学习：依赖环境提供的奖励信号，但许多真实环境（如网页交互）缺乏可验证的奖励机制。

早期经验的创新之处

研究团队提出的早期经验（Early Experience）范式，巧妙地将代理自身行为及其导致的环境状态变化转化为监督信号。这种方法既不需要专家数据，也不依赖外部奖励，而是让代理通过"试错"积累经验，逐步提升决策能力。

核心思想：代理在每个状态生成多个候选动作，执行后观察环境反馈（如网页变化、工具输出等），将这些状态转换作为监督信号进行学习。

论文实验

两大核心策略：隐式世界建模与自我反思

隐式世界建模（Implicit World Modeling）

原理：将代理自身动作导致的环境状态变化视为自然语言预测任务，训练代理预测未来状态。

训练过程：代理在专家状态生成多个候选动作，执行后获得环境反馈（自然语言描述的下一状态），通过预测这些状态学习环境动力学。
优势：帮助代理理解环境动态，提升对非专家行为的鲁棒性。

实验结果：在ALFWorld和WebShop等环境中，成功率提升5.5%-18.4%。

自我反思（Self-Reflection）

原理：代理比较自身动作与专家动作的差异，生成自然语言解释为何专家动作更优。

训练过程：代理生成多个候选动作及其结果，通过大语言模型生成对比解释，形成（状态-解释-动作）三元组作为训练数据。
优势：提升代理对决策原则的理解，增强泛化能力。

实验结果：在TravelPlanner和BFCLv3等任务中，成功率提升12.8%-15.0%。

多维度实验验证：性能与泛化能力双突破

实验环境

研究团队在8个不同领域进行了全面验证，包括：

具身导航：ALFWorld（家庭任务）
科学实验：ScienceWorld（实验室操作）
长时序规划：TravelPlanner（旅行规划）
工具使用：BFCLv3（多轮API调用）
网页导航：WebShop（电商购物）

关键结果

环境	模型	模仿学习	隐式世界建模	自我反思
ALFWorld	Llama-3.2-3B	78.1%	83.6% (+5.5)	85.9% (+7.8)
WebShop	Llama-3.1-8B	58.6%	72.7% (+14.1)	58.2% (+0.4)
ScienceWorld	Qwen-2.5-7B	53.9%	59.4% (+5.5)	68.0% (+14.1)