当前位置：首页 > news >正文

谷歌新款具身智能模型 Gemini Robotics 1.5 和 Gemini Robotics-ER 1.5

news 2025/9/27 10:00:14

谷歌新款具身智能模型 Gemini Robotics 1.5 和 Gemini Robotics-ER 1.5

谷歌（Google）公司在 9 月 25 日推出了其最新一代的机器人具身智能模型 Gemini Robotics 1.5 和 Gemini Robotics-ER 1.5， 与之前推出的模型仅用于内部研究不同的是，这次谷歌正式面向开发者公开提供模型的访问 API，也代表了其对模型可用性的自信。

Gemini Robotics 1.5 — 性能最强的视觉-语言-动作（VLA，vision-language-action）模型，将视觉信息与人类指令转化为机器人执行任务的动作命令。该模型具备“在行动之前思考”的能力，并能展示其思考过程，帮助机器人评估和完成复杂任务。它还能跨不同的机器人实体进行学习，提升技能迁移效率。
Gemini Robotics-ER 1.5 — 性能最强的视觉-语言模型（VLM，vision-language model），同时是世界上首个对物理世界进行推理的模型，并能够原生调用数字工具以及制定详细的多步骤计划来完成任务。该模型在空间理解的基准测试中已取得领先水平。

基于这两个模型，能完成很多以前对机器人来说十分具有挑战性的任务。例如，可以对机器人口述：“请将这些垃圾分别放入正确的堆肥桶、回收桶与垃圾桶中。” （小知识：美国是在上世纪 90 年代开始由各州、县根据自身情况逐步推行垃圾分类政策的）要完成这项任务，机器人需要：（1）查找当地的垃圾回收政策；（2）理解眼前物品的类型与属性、位置；（3）判断应如何分类；（4）分步将物品捡起，并放置到对应位置。

视频-垃圾分类

为使机器人能完成此类复杂、多步骤任务，谷歌设计了一个物理智能体框架，由两款模型协同工作。在该框架中，具身推理模型 Gemini Robotics-ER 1.5 担任“高阶大脑”的角色，擅长在物理环境中规划操作序列和逻辑判断。它在空间理解上表现出色，能以自然语言与人类交互，并评估任务是否成功，以及当前进度，并可以原生使用工具（如 Google 搜索）或用户定义的第三方函数来辅助推理。

然后 Gemini Robotics-ER 1.5 会为每一步操作生成自然语言指令，由 Gemini Robotics 1.5 接收这些指令，结合视觉与语言理解，直接驱动机器人电机执行具体动作。Gemini Robotics 1.5 也具有“思考”能力，使得机器人能更好地解决语义复杂的任务，甚至以自然语言形式解释其思考过程，从而提高透明性。

强大的时空推理模型 Gemini Robotics-ER 1.5

Gemini Robotics-ER 1.5 是为机器人场景专门微调的模型，具备以下新能力：

快速而强大的空间推理
模型可在低延迟条件下实现最先进的空间理解能力，擅长生成语义精确的二维点坐标。这些坐标基于对物体尺寸、重量与可操作性的推理，从而支持类似“指向任何你能拿起的物品”的交互请求。
协调复杂的智能体行为
借助空间与时间推理、任务规划与完成检测能力，模型在长周期任务执行中保持稳定。它还可原生调用外部工具或第三方函数以辅助完成任务。
灵活的思考 token 预算
用户可以控制模型在延迟与准确性之间的权衡。复杂任务（如多步组装）可允许模型“思考更久”，而实时反应任务（如检测或指认物体）则可要求快速响应。
改进的安全过滤机制
语义层面的安全性得到加强，模型更善于识别并拒绝生成违反物理约束的操作，例如超出机器人载重限制的行为。

先进的空间理解能力

机器人要与物理环境交互，必须具备对环境的精准感知与理解。

2D 坐标点生成

Gemini Robotics-ER 1.5 经过微调，可生成高质量的二维坐标，用于标识物体在图像平面中的位置。结合机器人的三维传感数据，可推断物体在现实空间中的精确位置，以便规划系统生成运动路径。

例如，面对一张厨房场景图像，模型可返回多组物体位置点（若这些物体确实出现在图中）。这些点采用 [y, x] 格式并以 0 至 1000 归一化。若请求对象不存在（如“独角兽”），模型不会生成对应点，避免幻觉输出。

提示词

请指出图像中的以下物品：洗洁精、碗碟架、水龙头、电饭煲、独角兽。坐标点格式为 [y, x]，归一化到 0-1000 范围内。仅包含图像中实际存在的物体。

响应

时间推理

在时间维度上，模型具备理解视频序列中的动作顺序与因果关系的能力。例如，当观看展示双臂机器人操作的短片并被询问“执行步骤的顺序是什么”时，模型能够按照时间戳的顺序进行正确描述，表明它理解了场景中发生的动作，而不仅仅是识别静态物体。

提示词

请详细描述完成任务的每一步。按时间戳分解，并以 JSON 格式输出，包含 'start_timestamp'、'end_timestamp' 和 'description' 三个键。

响应

[{"start_timestamp": "00:02","end_timestamp": "00:13","description": "左侧机械臂从桌上拿起绿色记号笔，并将其放入木制托盘中。"},{"start_timestamp": "00:15","end_timestamp": "00:22","description": "左侧机械臂从桌上拿起蓝色笔，并将其放入黑色网状笔筒中。"},{"start_timestamp": "00:23","end_timestamp": "00:28","description": "右侧机械臂从桌上拿起红色笔，并将其放入黑色网状笔筒中，完成了整理书写工具的任务。"}
]

基于可操作性的推理，实现长周期任务规划

机器人学中，物体的可操作性，即该物体可以被怎样物理交互或使用，如可抓取、可旋转、可支撑重量等。基于可操作性的推理，强调该模型不仅能识别物体是什么（感知层面），还可以理解并推理机器人如何与这个物体交互。如：

在制作咖啡的示例中，模型不仅识别“这是咖啡杯”，还判断杯子可以被抓起，并放到咖啡机下方；
在关闭咖啡机盖子的任务中，模型能够推断盖子的“可旋转”或“可下压”的特性，并规划相应的机器人动作。

例如，在咖啡制作示例中，模型不仅识别放置杯子的位置，还能规划关闭咖啡机盖子的轨迹；任务完成后，还能判断将杯子放在何处便于后续清理。

提示词

请指出我应该把杯子放在哪里才能制作一杯咖啡。返回一个 JSON 对象列表，格式为：[{"box_2d": [y_min, x_min, y_max, x_min], "label": <标签>}]，其中坐标归一化到 0-1000 范围内。

响应

如下图，模型在图中以方框形式准确标记了杯子应该放置的位置

提示词

接下来，我需要把咖啡机盖子关上。请绘制一条由 8 个点组成的轨迹，指示盖子手柄应该如何移动才能关闭。起点为手柄当前位置。点的格式为 [Y,X]，归一化坐标范围为 [0 - 1000]。请输出所有点，包括轨迹点，格式为：[{"point": [Y, X], "label": }, {"point": [Y, X], "label": }, ...]。

响应

灵活的思考 token 预算控制

实际示例表明，在使用 Gemini Robotics-ER 1.5 时，思考 token 预算的不同会影响延迟与性能。随着思考预算的增加，模型性能随之提升。对于简单的空间理解任务（如物体检测），即使在极低预算下也能获得高性能；而更复杂的推理任务则更适合较大的预算。

该模型采用推理时计算资源动态扩展策略，使得思考预算可调。开发者可以设置思考预算，甚至关闭额外推理步骤，只需在请求中添加 thinking_config 参数即可。

安全性说明

Gemini Robotics-ER 1.5 在安全方面的主要提升包括：

语义安全性：模型能理解并拒绝潜在危险或有害的任务计划，其能力已在相关标准测试集中得到验证。
物理约束认知：模型加强了对机器人载重、工作空间等物理边界的识别能力，能够在生成计划时参考这些限制。

‍

博士点评

谷歌还是 AI 届的王者，最早提出了 Transformer 模型架构。虽然被 OpenAI 偷袭了老家，但它还是全球智力资源、算力资源最密集的公司。从去年组织机构改组，把公司内部两支世界顶级的 AI 开发团队 DeepMind 和 Google Brain 整合起来后，立马推出了 Gemini 系列模型，从基准测试到产品体验，迅速从 OpenAI 扳回一局。相比之下，目前 Meta 公司的重组看起来更混乱无序，就看天价挖过去的“华人天团”是否给力了。

回到机器人具身智能模型，DeepMind 一直是 AI 改变现实世界的狂热研究者，从最早的 AlphaGo 战胜世界围棋冠军李世石，再到 AlphaFold 预测蛋白质结构颠覆了整个生物医药研发体系（创始人是历史上第一位靠 AI 拿了诺贝尔奖的人），并将 AI 用于核聚变控制、气候建模、材料研发等。相比而言， OpenAI 只是在无意中发现了大模型在文本对话和写作上的优势；“外星人”奥特曼借此在人气、商业上为自己博取了巨大利益，但这种成就对社会发展的实际意义相比 DeepMind 还是要低一点。

核能应用

Google 只是开放了模型的 API 使用，需要注册和登录谷歌云服务才能使用，并不是开放模型权重文件的下载，而谷歌的 API 在国内也访问不了。除非国内有机构能像 Deepseek 追赶 OpenAI 的推理模型 GPT-4o 一样，能自主开发实现相同的效果，并开源出来。

但预估 5-10 年内这个技术在国内也没法复现。目前国内顶尖 AI 公司的精力，都还放在追赶国外的语言大模型、多模态大模型性能上；压根没有余力，在机器人具身智能模型上追赶。现在国内玩具身智能模型的，都是高校或者一批新兴的机器人小 Startup，目前都还忙着发论文或拉风投呢。没有大企业的高密度智力资源投入，机器人具身智能模型在国内短期内是难以追赶上谷歌步伐的。