谷歌新款具身智能模型 Gemini Robotics 1.5 和 Gemini Robotics-ER 1.5
谷歌(Google)公司在 9 月 25 日推出了其最新一代的机器人具身智能模型 Gemini Robotics 1.5 和 Gemini Robotics-ER 1.5, 与之前推出的模型仅用于内部研究不同的是,这次谷歌正式面向开发者公开提供模型的访问 API,也代表了其对模型可用性的自信。
- Gemini Robotics 1.5 — 性能最强的视觉-语言-动作(VLA,vision-language-action)模型,将视觉信息与人类指令转化为机器人执行任务的动作命令。该模型具备“在行动之前思考”的能力,并能展示其思考过程,帮助机器人评估和完成复杂任务。它还能跨不同的机器人实体进行学习,提升技能迁移效率。
- Gemini Robotics-ER 1.5 — 性能最强的视觉-语言模型(VLM,vision-language model),同时是世界上首个对物理世界进行推理的模型,并能够原生调用数字工具以及制定详细的多步骤计划来完成任务。该模型在空间理解的基准测试中已取得领先水平。
基于这两个模型,能完成很多以前对机器人来说十分具有挑战性的任务。例如,可以对机器人口述:“请将这些垃圾分别放入正确的堆肥桶、回收桶与垃圾桶中。” (小知识:美国是在上世纪 90 年代开始由各州、县根据自身情况逐步推行垃圾分类政策的)要完成这项任务,机器人需要:(1)查找当地的垃圾回收政策;(2)理解眼前物品的类型与属性、位置;(3)判断应如何分类;(4)分步将物品捡起,并放置到对应位置。
视频-垃圾分类
为使机器人能完成此类复杂、多步骤任务,谷歌设计了一个物理智能体框架,由两款模型协同工作。在该框架中,具身推理模型 Gemini Robotics-ER 1.5 担任“高阶大脑”的角色,擅长在物理环境中规划操作序列和逻辑判断。它在空间理解上表现出色,能以自然语言与人类交互,并评估任务是否成功,以及当前进度,并可以原生使用工具(如 Google 搜索)或用户定义的第三方函数来辅助推理。
然后 Gemini Robotics-ER 1.5 会为每一步操作生成自然语言指令,由 Gemini Robotics 1.5 接收这些指令,结合视觉与语言理解,直接驱动机器人电机执行具体动作。Gemini Robotics 1.5 也具有“思考”能力,使得机器人能更好地解决语义复杂的任务,甚至以自然语言形式解释其思考过程,从而提高透明性。
强大的时空推理模型 Gemini Robotics-ER 1.5
Gemini Robotics-ER 1.5 是为机器人场景专门微调的模型,具备以下新能力:
- 快速而强大的空间推理
模型可在低延迟条件下实现最先进的空间理解能力,擅长生成语义精确的二维点坐标。这些坐标基于对物体尺寸、重量与可操作性的推理,从而支持类似“指向任何你能拿起的物品”的交互请求。 - 协调复杂的智能体行为
借助空间与时间推理、任务规划与完成检测能力,模型在长周期任务执行中保持稳定。它还可原生调用外部工具或第三方函数以辅助完成任务。 - 灵活的思考 token 预算
用户可以控制模型在延迟与准确性之间的权衡。复杂任务(如多步组装)可允许模型“思考更久”,而实时反应任务(如检测或指认物体)则可要求快速响应。 - 改进的安全过滤机制
语义层面的安全性得到加强,模型更善于识别并拒绝生成违反物理约束的操作,例如超出机器人载重限制的行为。
先进的空间理解能力
机器人要与物理环境交互,必须具备对环境的精准感知与理解。
2D 坐标点生成
Gemini Robotics-ER 1.5 经过微调,可生成高质量的二维坐标,用于标识物体在图像平面中的位置。结合机器人的三维传感数据,可推断物体在现实空间中的精确位置,以便规划系统生成运动路径。
例如,面对一张厨房场景图像,模型可返回多组物体位置点(若这些物体确实出现在图中)。这些点采用 [y, x]
格式并以 0 至 1000 归一化。若请求对象不存在(如“独角兽”),模型不会生成对应点,避免幻觉输出。
提示词
请指出图像中的以下物品:洗洁精、碗碟架、水龙头、电饭煲、独角兽。坐标点格式为 [y, x],归一化到 0-1000 范围内。仅包含图像中实际存在的物体。
响应
时间推理
在时间维度上,模型具备理解视频序列中的动作顺序与因果关系的能力。例如,当观看展示双臂机器人操作的短片并被询问“执行步骤的顺序是什么”时,模型能够按照时间戳的顺序进行正确描述,表明它理解了场景中发生的动作,而不仅仅是识别静态物体。
提示词
请详细描述完成任务的每一步。按时间戳分解,并以 JSON 格式输出,包含 'start_timestamp'、'end_timestamp' 和 'description' 三个键。
响应
[{"start_timestamp": "00:02","end_timestamp": "00:13","description": "左侧机械臂从桌上拿起绿色记号笔,并将其放入木制托盘中。"},{"start_timestamp": "00:15","end_timestamp": "00:22","description": "左侧机械臂从桌上拿起蓝色笔,并将其放入黑色网状笔筒中。"},{"start_timestamp": "00:23","end_timestamp": "00:28","description": "右侧机械臂从桌上拿起红色笔,并将其放入黑色网状笔筒中,完成了整理书写工具的任务。"}
]
基于可操作性的推理,实现长周期任务规划
机器人学中,物体的可操作性,即该物体可以被怎样物理交互或使用,如可抓取、可旋转、可支撑重量等。基于可操作性的推理,强调该模型不仅能识别物体是什么(感知层面),还可以理解并推理机器人如何与这个物体交互。如:
- 在制作咖啡的示例中,模型不仅识别“这是咖啡杯”,还判断杯子可以被抓起,并放到咖啡机下方;
- 在关闭咖啡机盖子的任务中,模型能够推断盖子的“可旋转”或“可下压”的特性,并规划相应的机器人动作。
例如,在咖啡制作示例中,模型不仅识别放置杯子的位置,还能规划关闭咖啡机盖子的轨迹;任务完成后,还能判断将杯子放在何处便于后续清理。
提示词
请指出我应该把杯子放在哪里才能制作一杯咖啡。返回一个 JSON 对象列表,格式为:[{"box_2d": [y_min, x_min, y_max, x_min], "label": <标签>}],其中坐标归一化到 0-1000 范围内。
响应
如下图,模型在图中以方框形式准确标记了杯子应该放置的位置
提示词
接下来,我需要把咖啡机盖子关上。请绘制一条由 8 个点组成的轨迹,指示盖子手柄应该如何移动才能关闭。起点为手柄当前位置。点的格式为 [Y,X],归一化坐标范围为 [0 - 1000]。请输出所有点,包括轨迹点,格式为:[{"point": [Y, X], "label": }, {"point": [Y, X], "label": }, ...]。
响应
灵活的思考 token 预算控制
实际示例表明,在使用 Gemini Robotics-ER 1.5 时,思考 token 预算的不同会影响延迟与性能。随着思考预算的增加,模型性能随之提升。对于简单的空间理解任务(如物体检测),即使在极低预算下也能获得高性能;而更复杂的推理任务则更适合较大的预算。
该模型采用推理时计算资源动态扩展策略,使得思考预算可调。开发者可以设置思考预算,甚至关闭额外推理步骤,只需在请求中添加 thinking_config
参数即可。
安全性说明
Gemini Robotics-ER 1.5 在安全方面的主要提升包括:
- 语义安全性:模型能理解并拒绝潜在危险或有害的任务计划,其能力已在相关标准测试集中得到验证。
- 物理约束认知:模型加强了对机器人载重、工作空间等物理边界的识别能力,能够在生成计划时参考这些限制。
博士点评
谷歌还是 AI 届的王者,最早提出了 Transformer 模型架构。虽然被 OpenAI 偷袭了老家,但它还是全球智力资源、算力资源最密集的公司。从去年组织机构改组,把公司内部两支世界顶级的 AI 开发团队 DeepMind 和 Google Brain 整合起来后,立马推出了 Gemini 系列模型,从基准测试到产品体验,迅速从 OpenAI 扳回一局。相比之下,目前 Meta 公司的重组看起来更混乱无序,就看天价挖过去的“华人天团”是否给力了。
回到机器人具身智能模型,DeepMind 一直是 AI 改变现实世界的狂热研究者,从最早的 AlphaGo 战胜世界围棋冠军李世石,再到 AlphaFold 预测蛋白质结构颠覆了整个生物医药研发体系(创始人是历史上第一位靠 AI 拿了诺贝尔奖的人),并将 AI 用于核聚变控制、气候建模、材料研发等。相比而言, OpenAI 只是在无意中发现了大模型在文本对话和写作上的优势;“外星人”奥特曼借此在人气、商业上为自己博取了巨大利益,但这种成就对社会发展的实际意义相比 DeepMind 还是要低一点。
核能应用
Google 只是开放了模型的 API 使用,需要注册和登录谷歌云服务才能使用,并不是开放模型权重文件的下载,而谷歌的 API 在国内也访问不了。除非国内有机构能像 Deepseek 追赶 OpenAI 的推理模型 GPT-4o 一样,能自主开发实现相同的效果,并开源出来。
但预估 5-10 年内这个技术在国内也没法复现。目前国内顶尖 AI 公司的精力,都还放在追赶国外的语言大模型、多模态大模型性能上;压根没有余力,在机器人具身智能模型上追赶。现在国内玩具身智能模型的,都是高校或者一批新兴的机器人小 Startup,目前都还忙着发论文或拉风投呢。没有大企业的高密度智力资源投入,机器人具身智能模型在国内短期内是难以追赶上谷歌步伐的。