https://arxiv.org/abs/2508.09736
https://github.com/bytedance-seed/m3-agent
摘要
我们提出了 M3-Agent,这是一种新颖的多模态智能体框架,具备长期记忆能力。类似于人类, M3-Agent能够处理实时的视觉和听觉输入,并不断构建和更新其长期记忆。除了情景记忆外,它还发展了语义记忆,使其能够随着时间积累世界知识。其记忆以以实体为中心的多模态形式组织,从而实现对环境更深入、更一致的理解。在接收到指令后, M3-Agent能够自主进行多轮、迭代推理,并从记忆中检索相关信息以完成任务。为评估多模态智能体的记忆效果及基于记忆的推理能力,我们开发了 M3-Bench,这是一个全新的视频问答基准。该基准包含100段以机器人视角录制的真实世界视频( M3-Bench-robot)和920段涵盖多种场景的网络视频( M3-Bench-web)。我们为这些视频标注了旨在考察智能体关键能力的问题-答案对,包括对人的理解、通用知识抽取和跨模态推理。实验结果表明,经过强化学习训练的 M3-Agent在 M3-Bench-robot、 M3-Bench-web和VideoMME-long上,准确率分别比最强基线(基于Gemini-1.5-pro和GPT-4o的提示智能体)高6.7%、7.7%和5.3%。我们的工作推动了多模态智能体向更具人类特征的长期记忆发展,并为其实用化设计提供了新见解。模型、代码和数据已开源。
引言
想象一下,在未来,家用机器人能够自主完成家务,无需你的明确指令;它必须通过日常经验学习你家的操作规则。早晨,它会递给你一杯咖啡,而不会问“咖啡还是茶?”,因为它已经通过长期互动逐渐形成了对你的记忆,了解你的偏好和日常习惯。对于多模态智能体,实现这样的智能水平,根本上依赖于三项能力:(1)通过多模态传感器持续感知世界;(2)将经验存储在长期记忆中,并逐步构建对环境的知识;(3)在积累的记忆基础上进行推理,以指导自身行为。
为实现这些目标,我们提出了M3-Agent,这是一种具备长期记忆能力的新型多模态智能体框架。如图1所示,M3-Agent通过两个并行过程运行:记忆,持续感知实时多模态输入以构建和更新长期记忆;控制,解释外部指令,在存储的记忆上进行推理,并执行相应任务。
在记忆过程中,M3-Agent处理输入的视频流,通过生成两类记忆,捕捉细粒度细节和高层次抽象,类似于人类认知系统:
- 情节记忆:记录视频中观察到的具体事件。例如,“Alice拿起咖啡并说‘早上没有这个可不行’”,“Alice把一个空瓶扔进了绿色垃圾桶”。
- 语义记忆:从片段中提取一般性知识。例如,“Alice喜欢早上喝咖啡”,“绿色垃圾桶用于回收”。
生成的记忆随后被存储在长期记忆中,支持多模态信息,如人脸、声音和文本知识。此外,记忆以以实体为中心的结构进行组织。例如,与同一个人相关的信息(如其面部、声音和相关知识)以图结构连接,如图1所示。这些连接会随着智能体提取和整合语义记忆而逐步建立。
在控制过程中,M3-Agent 利用其长期记忆进行推理和任务完成。它能够自主地从长期记忆中检索与任务相关的信息,涵盖事件、角色等多个维度。与传统的单轮检索增强生成(RAG)方法将记忆加载到上下文不同,M3-Agent 采用强化学习,实现多轮推理和迭代记忆检索,从而显著提升任务完成率。
记忆任务与长视频描述相关,但又超越了该范畴,带来了两大挑战:(1)无限信息处理。记忆任务要求处理无限长的输入流。现有方法通常通过优化架构效率来处理更长但仍有限的离线视频。而 M3-Agent 能够持续在线处理任意长度的多模态流,更贴近人类长期记忆的形成方式,即通过持续感知和经验的逐步整合。(2)世界知识构建。传统视频描述往往关注低层次视觉细节,忽略了角色身份、实体属性等高层次世界知识,导致长期上下文中出现歧义和不一致。M3-Agent 通过以实体为中心的记忆结构,逐步构建世界知识,形成丰富的多模态实体表示,实现连贯一致的长期记忆。
我们在长视频问答(LVQA)任务上评估了 M3-Agent,其中视频模拟了智能体接收到的多模态输入流(视觉和听觉)。现有大多数 LVQA 基准主要关注视觉理解,如动作识别和时空感知,尚缺乏对依赖长期记忆的高阶认知能力(如理解人物、抽取一般知识、跨模态推理)的评测。为此,我们提出了 M3-Bench,这是一个专为评估多模态智能体长期记忆推理能力设计的新型 LVQA 基准。M3-Bench 包含两类视频来源:(1)M3-Bench-robot,包含100段真实机器人视角视频;(2)M3-Bench-web,包含920段来自 YouTube 的视频,涵盖更广泛的内容和场景。我们定义了五类问题(见表1),针对不同的记忆推理能力。M3-Bench-robot 共标注了1276对问答,M3-Bench-web 共标注了3214对问答。
我们在 M3-Bench-robot、M3-Bench-web 和 VideoMME-long 上进行了实验。
结果显示,经过强化学习训练的 M3-Agent 在三个基准上均优于所有基线方法。与最强基线 Gemini-GPT4o-Hybrid(通过提示 Gemini-1.5-Pro 进行记忆、GPT-4o 进行控制实现 M3-Agent 框架)相比,M3-Agent 在 M3-Bench-robot、M3-Bench-web 和 VideoMME-long 上的准确率分别提升了 6.7%、7.7% 和 5.3%。消融实验表明语义记忆至关重要:去除语义记忆后,准确率在三个基准上分别下降了 17.1%、19.2% 和 13.1%。此外,我们还分析了强化学习训练、轮间指令和推理模式对控制性能的影响。具体而言,强化学习训练分别提升了 10.0%、8.0% 和 9.3% 的准确率;去除轮间指令后,准确率分别下降了 10.5%、5.8% 和 5.9%;关闭推理模式则导致准确率分别下降 11.7%、8.8% 和 9.5%。
本文的主要贡献如下:
-
我们提出了 M3-Agent,这是一种具备长期记忆能力的新型多模态智能体框架。M3-Agent 能够持续处理实时多模态输入(“看”和“听”),通过生成情节记忆和语义记忆逐步构建世界知识(“记忆”),并在这些记忆基础上进行推理以完成复杂指令(“推理”)。
-
我们开发了 M3-Bench,这是一个专为评估多模态智能体记忆及基于记忆推理能力而设计的新型 LVQA 基准。
-
实验结果表明,经过强化学习训练的 M3-Agent 在多个基准上均显著优于基于商业模型提示的智能体。
相关工作
AI智能体的长期记忆
长期记忆对于AI智能体至关重要,使其能够保留远距离的上下文信息,并支持更高级的推理。常见的方法是将整个智能体的轨迹(如对话或执行轨迹)直接追加到记忆中。除了原始数据外,一些方法还引入摘要、潜在嵌入或结构化知识表示。最新的系统进一步构建了复杂的记忆架构,使智能体能够更精细地管理记忆。
然而,大多数现有方法主要关注于大语言模型(LLM)智能体。相比之下,多模态智能体处理更广泛的输入,并在记忆中存储更丰富的多模态内容和概念。这也带来了新的挑战,尤其是在保持长期记忆一致性方面。此外,正如人类通过经验获得世界知识一样,多模态智能体也应在记忆中形成内部世界知识,而不仅仅是存储经验的描述。
在线视频理解
对于多模态智能体,记忆的形成与在线视频理解密切相关。在线视频理解是一项具有挑战性的任务,需要实时处理视频流,并基于过去的观察做出决策。传统的长视频理解方法,如扩展多模态模型的上下文窗口或压缩视觉标记以增加时间覆盖范围,对于无限长的视频流并不具备良好的扩展性。在实际应用中,如交互式智能体场景,每次新指令都重新处理整个视频历史在计算上是不可行的。
为提升可扩展性,基于记忆的方法引入了记忆模块,用于存储编码后的视觉特征以便后续检索。这些架构适用于在线视频处理。然而,它们面临一个根本性限制:如何保持长期一致性。由于仅存储视觉特征,这些方法难以在长时间内持续追踪实体(如人物身份)或事件的演变。
随着大型多模态和语言模型的快速发展,Socratic Models 框架成为在线视频理解的有前景的方法。该方法利用多模态模型生成基于语言的视频描述作为记忆,从而提升了可扩展性。然而,在应对复杂、不断变化的视频内容时,如何保持长期一致性仍然是一个挑战。
数据集
本节介绍 M3-Bench,这是一个用于评估多模态智能体长期记忆推理能力的长视频问答(LVQA)数据集。M3-Bench 的每个样本包含一个模拟智能体感知输入的长视频,以及一系列开放式问答对。该数据集分为两个子集:(1)M3-Bench-robot,包含100个以机器人第一视角拍摄的真实世界视频;(2)M3-Bench-web,包含920个来自网络、涵盖更丰富内容和场景的视频。为了全面评估智能体回忆过去观察并进行基于记忆推理的能力,我们设计了五种不同类型的问题,具体见表1。总体而言,M3-Bench 的特点包括:(1)涵盖多样真实生活场景的长时长、真实世界视频,适用于多模态智能体的部署需求;(2)具有挑战性的问题,这些问题不仅仅依赖浅层感知理解,还需要对长期上下文进行复杂推理。
图2展示了 M3-Bench 的示例。M3-Bench 的整体统计信息见图3。表2则与现有的长视频问答基准进行了对比分析。本节其余部分将分别详细介绍 M3-Bench-robot 和 M3-Bench-web 的数据收集与标注流程。
M3-Bench-robot
机器人是多模态智能体的典型代表。通用机器人应具备长期记忆并能够基于记忆进行推理,以指导自身行为。例如,在处理观察信息时,机器人可能需要记住某个人的名字、他们把外套放在哪里,或者他们喜欢喝什么咖啡。对长期记忆的推理能够赋予机器人更高层次的认知能力,如推断一个人的性格、理解人与人之间的关系,或识别周围物体的功能。为了系统性地评估这些能力,我们录制了一批以机器人视角拍摄的新视频,并手工标注了相应的问答对。
脚本设计
我们首先为 M3-Bench-robot 设计了涵盖七种日常场景的视频脚本,这些场景是机器人常见的工作环境:客厅、厨房、卧室、书房、办公室、会议室和健身房。每个脚本包含一个机器人与两到四个人类的互动。标注员被要求设计体现通用服务机器人理想能力的人机交互情节。
为确保脚本内容的多样性,我们为每个场景引入了多种主题变体。例如,客厅场景可能包括会见朋友、家庭对话或举办感恩节聚会等主题。标注员为每个主题编写一个脚本,从而保证脚本覆盖面广、变异性高。
具体来说,每个脚本被组织为一系列离散事件和问题。有些事件被设计为参考事件,包含后续问题所需的信息。问题可以出现在任意事件之后或脚本结尾。当问题出现在事件序列中时,通常与当前情节紧密相关;移动这些问题的位置可能会改变其答案或影响难度。
为确保视频内容的复杂性以及后续视频拍摄和标注的质量,标注员需满足以下要求:
- 至少标注15个问题,并为每个问题标注其所需参考事件。
- 确保每个问题至少对应表1中列举的一种问题类型。
- 每个脚本需包含不少于70个事件,以保证视频时长至少为30分钟。
视频拍摄
由于实际机器人拍摄面临高昂的操作成本、硬件限制和部署复杂性等挑战,我们采用了一种更为可行的替代方案:由真人演员模拟机器人行为。这种方式简化了数据采集流程,同时保留了机器人第一视角和多模态特性,满足基准测试的需求。
每个脚本均由多名演员参与,其中一人专门负责模拟机器人。该演员佩戴头戴式摄像设备,以捕捉机器人的主观视觉和听觉信息,最终生成 M3-Bench-robot 的视频。为保证场景多样性并减少地点偏差,我们共招募了67名演员,在51个不同地点进行拍摄,每个地点拍摄的视频不超过三段。
每段视频采集了两种音频轨道。第一种由头戴设备直接录制,反映机器人自然接收到的原始听觉输入,包括环境噪音和空间声学变化。第二种则通过每位演员佩戴的领夹麦克风单独录制,提供高保真语音音轨,以补充主音频流。
标注流程
视频拍摄完成后,标注员为每段视频整理问答对。尽管部分问题在脚本阶段已预先设计,但由于实际拍摄过程中内容可能与原脚本存在偏差,因此并非所有脚本问题都适用。标注员需仔细审核每个脚本问题,决定其是否保留、修改或舍弃,并在必要时补充相应答案。对于所有保留或修改的问题,标注员需明确标注该问题应被提出的具体时间戳。需要注意的是,时间戳必须早于机器人做出相关回应或动作,以避免无意中泄露答案。
除了基于脚本的问题外,标注员还需额外设计新问题,确保每段视频至少包含12组问答。所有新增问题同样需符合表1中列举的一种或多种问题类型。
除问答对外,标注员还需为数据集生成字幕。具体而言,需手动标注每段对话的起止时间戳、说话人身份及转写内容,以提升数据集的可用性。
M3-Bench-web
为了进一步提升视频的多样性,我们按照现有做法,从 YouTube 收集了额外的视频。
视频收集
视频收集采用了以问题为驱动的方法:标注员选择能够支持设计至少五个属于表1所列类型问题的视频。这一策略自然促使标注员选择叙事丰富、实体关系复杂的视频,非常适合评估智能体的长期记忆推理能力。
为促进视频多样性并避免易于标注内容的过度集中,我们为标注员提供了一份参考视频类别清单,强调高信息密度和与真实多模态智能体应用的相关性。标注员每个类别最多提交20个视频,并可建议新类别,若作者认为新类别与现有类别足够不同,则会被采纳。最终数据集包含46种不同的视频类型,统计信息见图3。
问答标注
收集视频的标注员需为每个视频生成至少五组对应的问答对。每个问题必须对应表1中定义的至少一种类型。在 M3-Bench-web 中,所有问题的时间戳均设为视频结尾。所有问题要求具体、客观,并且有唯一且明确的答案,且该答案可通过视频中的线索合理推断,以确保后续评测的有效性和公平性。例如,能够从多个角度作答或引用不明确(如“那个男人”或“视频中间部分”)的问题不被视为有效。
自动评测
我们采用 GPT-4o 作为 M3-Bench 的自动评测器,通过提示其比较生成答案与参考答案的正确性。
为验证 GPT-4o 的评测可靠性,我们构建了一个包含100个随机三元组的测试集,每个三元组由一个问题、其参考答案以及我们方法或各基线方法生成的答案组成。三位作者独立评判每个生成答案的正确性,并将 GPT-4o 的判断与人工多数投票结果进行对比。GPT-4o 与人工评判的一致率达到96%,验证了其作为自动评测器的有效性。
方法
如图1所示, M3-Agent 由一个多模态大语言模型和一个长期记忆模块组成。系统通过两条并行流程运行:记忆流程能够持续处理任意长度的视频流并构建终身记忆;控制流程则在长期记忆上进行推理以执行指令。以下小节将分别详细介绍长期记忆存储、记忆流程和控制流程。
长期记忆
长期记忆实现为一个外部数据库,以结构化的多模态格式(文本、图像、音频)存储信息。具体来说,记忆条目被组织为一个记忆图,每个节点代表一个独立的记忆项。每个节点包含唯一ID、模态类型、原始内容、权重、嵌入向量以及其他元数据(如时间戳)。详见表3。节点之间通过无向边连接,这些边捕捉记忆项之间的逻辑关系。这些连接作为线索,有助于检索相关记忆。
智能体通过逐步添加新的文本、图像或音频节点及其连接边,或更新现有节点的内容和权重来构建记忆。
在构建过程中可能会引入冲突信息。为了解决这一问题, M3-Agent 在推理阶段采用基于权重的投票机制:被多次强化的条目会累积更高的权重,从而覆盖那些被较少强化的冲突条目。该机制确保了记忆图随时间推移的稳健性和一致性。
检索工具 为了便于访问记忆,我们提供了一套检索工具,使智能体能够根据具体需求检索相关记忆。特别地,我们实现了两种在不同粒度级别上运行的检索机制,具体总结见表4。
记忆生成
如图1所示,在记忆生成阶段,M3-Agent 以逐段处理的方式分析输入视频流,生成两类记忆:情节记忆(episodic memory),用于捕捉原始视频中的视觉和听觉内容;语义记忆(semantic memory),用于提取角色身份、属性、关系及其他世界知识等通用信息。语义记忆不仅丰富了记忆内容,还为控制流程提供了额外的检索线索,从而提升了检索效果。
一致性实体表示
构建高质量长期记忆的关键挑战之一,是在任意长时间跨度内保持核心概念(如主要角色和物体)的一致性表示。现有方法通常生成基于语言的描述,例如“一个有胡子的男人”或“一个穿红裙的女人”。然而,这类文本描述本质上存在歧义,且在长期积累后容易出现不一致。为了解决这一问题,M3-Agent 保留原始多模态特征,并在长期记忆中构建持久的身份表示。这一做法为长期一致性提供了更稳定、鲁棒的基础。
具体而言,我们为 M3-Agent 配备了一套外部工具,包括人脸识别和说话人识别。这些工具能够提取片段中出现的角色人脸和声音,并返回其在长期记忆中的对应身份。每个提取到的人脸或声音要么通过 search_node
函数关联到已有节点,要么分配给新建节点。最终得到的标识符(face_id
或 voice_id
)作为该角色的持久引用。通过以全局维护的记忆图为统一结构,M3-Agent 能够确保不同片段本地记忆中的角色身份映射一致,从而形成连贯的长期记忆。
这种方法还可以推广到更多概念的编码,例如关键地点或物体,从而进一步提升记忆生成的一致性。
记忆生成
在获得人脸和声音身份后,M3-Agent 会继续生成情节记忆和语义记忆。每个角色都必须通过其 face_id
或 voice_id
进行引用。例如:“<face_1> 戴着红色帽子和蓝色上衣”,或“<voice_2> 对 <face_3> 说:‘你今天怎么样?’” 这种机制确保每个角色都能通过长期记忆中存储的物理特征被明确地锚定。
特别是在语义记忆中,M3-Agent 能够进行跨模态推理,推断不同实体 ID 之间的关系(例如,将属于同一人的人脸和声音关联起来)。这些推断出的等价关系会用于更新记忆图中人脸节点和声音节点之间的连接。一旦建立连接,该对节点就被视为同一个角色。在检索时,相关节点会统一为一个共享的 <character_id>
,使模型能够在多模态下更一致地推理角色。
在输出格式方面,M3-Agent 会将情节记忆和语义记忆都以文本条目列表的形式生成。每个条目作为文本节点存储在记忆图中,实体 ID 之间的关系则以边的形式表示。如前文所述,对于冲突信息,系统通过投票机制进行解决。例如,<voice_3> 对应 <face_0>,但在某些复杂片段中,系统可能会暂时将其关联到其他人脸。随着正确关联的不断积累,正确映射(<voice_3>, <face_0>)的权重会逐渐增加并占据主导地位。这使得系统即使在偶尔出现局部错误的情况下,也能稳健地学习和维护准确的知识。
控制流程
当接收到指令时,控制流程被触发。如图 1 所示,在控制阶段,M3-Agent 会自主进行多轮推理,并调用检索函数从长期记忆中获取相关信息,最多可进行 \(H\) 轮。M3-Agent 能够自主决定调用哪种检索函数,例如使用 search_clip
检索特定记忆片段,或使用 search_node
获取特定角色的身份ID。
具体来说,M3-Agent 中的多模态大语言模型(MLLM)可以视为策略模型 \(\pi_\theta\)。给定问题 \(q\) 和当前长期记忆 \(\mathcal{M}\),控制流程按照算法1执行。为此,我们设计了三类提示词:(1)每个会话开始时的“系统提示词”,用于指定整体任务目标;(2)每轮(除最后一轮外)开始时的“指令提示词”,提供问题和详细指导;(3)仅在最后一轮使用的“最后一轮提示词”,提示智能体这是最后一次作答机会。
训练
我们采用强化学习来优化 M3-Agent。虽然记忆生成和控制在概念上由同一个模型处理,但我们实际上训练了两个独立的模型以获得最佳性能。记忆生成依赖于强大的多模态理解能力,而控制则需要强大的推理能力。因此,我们分别选择了不同的基础模型进行初始化:记忆生成部分采用了 Qwen2.5-Omni,这是一款先进的开源多模态模型,支持视觉和音频输入;控制部分则采用了 Qwen3,这是一款具有强大推理能力的开源大语言模型。
训练数据来自我们自有的视频数据集,并已获得用于模型训练的授权。我们收集了视频及其对应的问题-答案对,标注标准与 M3-Bench-web 数据集保持一致。整个训练数据集包含 500 个长视频,对应 26,943 个 30 秒片段,以及 2,736 个问题-答案对。
记忆生成 为了提升模型生成目标记忆的能力,我们在 Qwen2.5-Omni-7b 上进行模仿学习,得到 memory-7b-sft。首先构建高质量的合成示范数据集。我们将数据集中的每个视频切分为 30 秒片段,并通过三阶段流程生成对应的记忆标注:(1)情节记忆合成:采用 Gemini-1.5-Pro 和 GPT-4o 联合提示的混合标注策略。GPT-4o 提供帧级线索,作为 Gemini-1.5-Pro 的先验,两者输出合并后,获得比单一模型更丰富的叙事摘要。(2)身份等价检测:我们提出一种算法,自动从长视频中挖掘高置信度的元片段,即仅包含一个人脸和一个声音的短独白片段,用于构建全局人脸-声音对应关系。这些元片段提供清晰的身份线索,使得人脸-声音配对更加准确。一旦建立全局映射,即可自动标注任意 30 秒子片段中的人脸-声音关联。(3)其他语义记忆合成:我们设计提示模板,从不同视角提取语义记忆。最终共合成 10,952 个样本:10,752 个用于训练,200 个用于验证。
微调过程共进行 3 个 epoch,学习率为 \(1e-5\),batch size 为 16,使用 16 块 80GB 显存的 GPU。
控制 首先搭建 RL 训练环境。对于数据集中的每个视频,均使用 memory-7b-sft 生成对应的长期记忆。对于任意给定问题,智能体仅能在与该问题相关的视频生成的记忆中进行检索。
随后,我们使用 DAPO对策略模型 \(\pi_\theta\) 进行训练,初始化自 control-32b-prompt。对于训练集 \(\mathcal{D}\) 中采样的每个问题-答案对 \((q, a)\),策略 \(\pi_\theta\) 按算法1 rollout \(G\) 条轨迹 \({\tau}_{i=1}^{G}\)。对于每条轨迹 \(\tau_i\),提取最终提交的答案 \(y_i\),并用第3.3节介绍的 GPT-4o 评测器进行评估。第 \(i\) 条轨迹的奖励定义为:
对于第 \(i\) 条轨迹,其奖励定义如下:
然后,通过对组内奖励 \(\{R_i\}_{i=1}^{G}\) 进行归一化,计算第 \(i\) 个回答的优势值:
需要注意的是,在训练过程中,我们仅对由大语言模型生成的 token 计算损失。优化目标为:
其中,指示函数 \(\mathbb{I}(\tau_{i,t})=1\) 表示 \(\tau_{i,t}\) 是由大语言模型生成的 token,否则为 \(0\)。
DAPO 训练过程中的超参数见附录。
实验
基线方法
我们将 MM-Agent 与三类基线方法进行了对比:
Socratic Models(苏格拉底模型)
该基线方法改编自 Socratic Models 框架,利用多模态模型对 30 秒视频片段进行描述,并将这些描述作为长期记忆存储。为回答问题,LLM 采用检索增强生成(RAG)策略:首先调用 search_clip
函数检索与问题相关的记忆内容,然后基于检索结果生成答案。
我们实现了闭源和开源多模态模型用于记忆生成:
- Gemini-1.5-Pro:以完整的 30 秒视频片段作为输入。
- GPT-4o:由于其无法处理音频,我们为其提供以 0.5 fps 采样的视频帧和 ASR 转录文本。
- Qwen2.5-Omni-7b:一款先进的开源多模态模型,支持视觉和音频输入,输入为完整视频。
- Qwen2.5-VL-7b:一款在视觉-语言任务中表现领先的开源视觉语言模型。与 GPT-4o 类似,输入为采样视频帧(0.5 fps)和 ASR 转录文本。
对于所有变体,GPT-4o 作为 LLM 执行基于 RAG 的问答。我们针对每种设置进行了大量提示词工程以优化性能。
在线视频理解方法
我们进一步将我们的方法与三种在线视频理解框架进行了比较:MovieChat、MA-LMM 和 Flash-VStream。除非另有说明,我们均采用其官方预训练权重和默认配置。
- MovieChat:该方法采用滑动窗口提取帧级特征,并将其存储在混合记忆中;LLM 基于该记忆进行问答。
- MA-LMM:该方法以在线方式处理视频帧,包括特征提取(1 fps)、时序建模(100 帧输入)和 LLM 解码。
- Flash-VStream:该方法采用两阶段异步流程:视频帧压缩(1 fps)和基于 LLM 的压缩特征问答。
Agent 方法
我们还将 M3-Agent 与基于闭源商用模型提示实现的 agent 进行了比较。具体包括以下两个基线:
- Gemini-Agent:Gemini-1.5-Pro 分别用于记忆访问和控制流程。在记忆访问阶段,输入完整视频及音频、人脸识别和说话人识别结果,生成情节记忆和语义记忆,记为
memory-gemini-prompt
。在控制流程中,执行记忆检索和答案生成,记为control-gemini-prompt
。 - Gemini-GPT4o-Hybrid:我们还评估了 GPT-4o 负责记忆检索和答案生成(
control-gpt4o-prompt
)的设置,记忆访问仍由memory-gemini-prompt
完成。
我们将 M3-Agent 及所有 agent 基线的最大执行轮数 \(H\) 设为 5。在 search_clip
的实现中,若能检索到相关记忆,则返回最相关的 2 个记忆片段(即 \(k=2\));若未检索到,则返回空结果。
数据集与评测
我们在 M3-Bench-robot 和 M3-Bench-web 上对 M3-Agent 及所有基线方法进行了评测。为验证方法的通用性,我们还按照官方评测协议在长视频理解基准 VideoMME-long 上测试了 M3-Agent。
主要结果
表5 展示了 M3-Bench-robot、M3-Bench-web 和 VideoMME-long 上的结果。我们还对 M3-Bench 中不同问题类型的所有方法进行了比较,包括多细节推理(MD)、多跳推理(MH)、跨模态推理(CM)、人物理解(HU)和常识抽取(GK)。
结果显示,M3-Agent 在 M3-Bench-robot、M3-Bench-web 和 VideoMME-long 上均优于所有基线方法。具体来说,在 M3-Bench-robot 上,M3-Agent 相较于最强基线 MA-LLM 提高了 6.3% 的准确率;在 M3-Bench-web 和 VideoMME-long 上,相较于最强基线 Gemini-GPT4o-Hybrid,分别提升了 7.7% 和 5.3%。
我们还在 M3-Bench 的不同问题类型上对 M3-Agent 与所有基线进行了比较。M3-Agent 在人物理解和跨模态推理方面表现突出。具体而言,相较于 M3-Bench-robot 上表现最好的基线 MA-LMM,M3-Agent 在人物理解和跨模态推理上分别提升了 4.2% 和 8.5%;在 M3-Bench-web 上,相较于最优基线 Gemini-GPT4o-Hybrid,分别提升了 15.5% 和 6.7%。这些结果表明,M3-Agent 在保持人物一致性、加深人物理解以及有效整合多模态信息方面具有显著优势。
消融实验
为了评估记忆机制对整体性能的影响,我们将控制模型固定为 control-7b-rl,并比较了不同的记忆生成方法,结果如表6所示。首先,我们用 memory-gemini-prompt 生成的记忆替换原有记忆,在 M3-Bench-robot、M3-Bench-web 和 VideoMME-long 上的准确率分别下降了 2.0%、2.6% 和 9.1%。这表明 memory-7b-sft 生成的记忆质量高于 memory-gemini-7b。接着,我们评估了 memory-7b-prompt,其在上述基准上的准确率分别下降了 5.4%、9.0% 和 11.0%,进一步凸显了模仿学习在生成高效记忆中的重要性。最后,我们对记忆生成过程中的关键组件进行了消融。结果显示,去除人物身份等价或语义记忆都会显著降低问答性能。
接下来,我们分析控制流程对最终性能的影响。我们将记忆模型固定为 memory-7b-sft,并评估了多种控制流程模型,结果如表7所示。首先,我们比较了两种强化学习算法:GRPO 和 DAPO。GRPO 的训练细节见附录。实验结果表明,采用 DAPO 训练的 control-32b-rl
在所有测试集上均优于 control-32b-grpo
。其次,我们分析了 DAPO 随模型规模扩大的性能提升。结果显示,所有规模下均有显著提升。具体而言,经过 DAPO 训练后,control-32b-rl
在 M3-Bench-robot、M3-Bench-web 和 VideoMME-long 上的准确率分别比 control-32b-prompt
提高了 10.0%、8.0% 和 9.3%。最后,我们对两项设计进行了消融:指令间交互(inter-instruction)和推理(reasoning)。实验表明,这两项设计都至关重要。去除指令间交互会导致准确率在 M3-Bench-robot、M3-Bench-web 和 VideoMME-long 上分别下降 10.5%、5.8% 和 5.9%;去除推理则分别下降 11.7%、8.8% 和 9.5%。
案例分析
记忆生成
表15、表16(见附录)展示了记忆访问过程中生成的情节记忆和语义记忆的两个示例。与 memory-gemini-prompt 相比,memory-7b-sft 具备以下优势:
- 生成更为细致的情节记忆,包括更丰富的场景描述、人物动作与表情以及对话内容;
- 更好地识别身份等价,实现人物身份的一致性长期追踪;
- 提取更丰富的语义记忆,能够主动生成关于人物和环境的知识。
控制流程
为详细说明控制流程,表17(见附录)给出了 control-32b-rl 的完整生成轨迹。输入问题为:“Tomasz 是富有想象力的人还是缺乏想象力的人?”
在第一轮中,agent 检索记忆以获取 Tomasz 的角色 ID。第二轮,确认 Tomasz 为 <character_4> 后,尝试直接查询:“<character_4> 的想象力性格如何?”第三轮未检索到相关记忆后,agent 基于 <character_4> 作为公司 CTO 的身份进行推理,生成更有针对性的查询:“<character_4> 解决问题时有哪些创新方法?”这次检索到相关记忆:“<character_4> 具有创新和前瞻性思维,例如他对扩展无人机技术以实现个人飞行的兴趣。”——这是一条语义记忆。到第四轮时,agent 已在上下文中收集到足够信息,生成最终答案。
M3-Bench 中的难例分析
不同方法的准确率表明,M3-Bench,尤其是 M3-Bench-robot,具有很大挑战性。我们对 M3-Agent 在 M3-Bench 上的错误进行了详细分析,识别出两类具有代表性的难例及其带来的挑战,这些问题有待进一步研究。
第一类难例涉及细粒度细节推理。例如,“谁想吃火腿肠?”或“Emma 的帽子应该挂在哪个衣帽架上,高的还是矮的?”等问题要求 agent 从观察中提取精确信息。然而,将所有细节都存入记忆并不现实,反而可能导致认知过载。为此,agent 需要具备选择性记忆的注意力机制。在执行过程中,agent 可以发展任务相关的世界知识,聚焦于相关细节,忽略无关信息,从而提升任务表现。
第二类难例与空间推理相关。在 M3-Bench-robot 中,许多问题考验 agent 的空间认知能力,如理解空间布局和追踪空间变化。例如:“机器人可以在哪里拿到零食?”以及“Leo 的水杯现在在架子的第几层?”由于语言记忆在保留空间信息方面通常不如视觉记忆有效,因此长期记忆应设计为包含更丰富的视觉内容(如快照),以更好地支持空间推理。
结论与未来工作
本文提出了 M3-Agent,这是一种具备长期记忆能力的多模态智能体框架。 M3-Agent能够感知实时的视频和音频流,构建情景记忆和语义记忆,使其能够积累世界知识,并随时间保持一致且富有上下文的信息。在响应指令时, M3-Agent能够自主推理并从记忆中检索相关信息,从而更有效地完成任务。为评估记忆效果和推理能力,我们开发了 M3-Bench,这是一个包含真实世界机器人视角视频的LVQA基准,涵盖了实际环境,并提出了围绕人类理解、知识抽取和跨模态推理的具有挑战性的问题,紧密贴合实际需求。我们将所提方法与多种基线进行对比,包括Socratic模型、在线视频理解方法,以及基于闭源模型提示实现的 M3-Agent。实验结果表明,在 M3-Bench-robot、 M3-Bench-web和VideoMME-long上, M3-Agent始终优于所有基线,展现了其卓越的记忆和推理能力。此外,通过详细的案例分析,我们发现了一些关键的局限性,并指出了未来的研究方向,包括提升语义记忆形成的注意力机制,以及开发更丰富且高效的视觉记忆。