当前位置: 首页 > news >正文

谷歌新款具身智能模型 Gemini Robotics 1.5 和 Gemini Robotics-ER 1.5

谷歌新款具身智能模型 Gemini Robotics 1.5 和 Gemini Robotics-ER 1.5

谷歌(Google)公司在 9 月 25 日推出了其最新一代的机器人具身智能模型 Gemini Robotics 1.5Gemini Robotics-ER 1.5, 与之前推出的模型仅用于内部研究不同的是,这次谷歌正式面向开发者公开提供模型的访问 API,也代表了其对模型可用性的自信。

  • Gemini Robotics 1.5 — 性能最强的视觉-语言-动作(VLA,vision-language-action)模型,将视觉信息与人类指令转化为机器人执行任务的动作命令。该模型具备“在行动之前思考”的能力,并能展示其思考过程,帮助机器人评估和完成复杂任务。它还能跨不同的机器人实体进行学习,提升技能迁移效率。
  • Gemini Robotics-ER 1.5 — 性能最强的视觉-语言模型(VLM,vision-language model),同时是世界上首个对物理世界进行推理的模型,并能够原生调用数字工具以及制定详细的多步骤计划来完成任务。该模型在空间理解的基准测试中已取得领先水平。

基于这两个模型,能完成很多以前对机器人来说十分具有挑战性的任务。例如,可以对机器人口述:“请将这些垃圾分别放入正确的堆肥桶、回收桶与垃圾桶中。” (小知识:美国是在上世纪 90 年代开始由各州、县根据自身情况逐步推行垃圾分类政策的)要完成这项任务,机器人需要:(1)查找当地的垃圾回收政策;(2)理解眼前物品的类型与属性、位置;(3)判断应如何分类;(4)分步将物品捡起,并放置到对应位置。

视频-垃圾分类

为使机器人能完成此类复杂、多步骤任务,谷歌设计了一个物理智能体框架,由两款模型协同工作。在该框架中,具身推理模型 Gemini Robotics-ER 1.5 担任“高阶大脑”的角色,擅长在物理环境中规划操作序列和逻辑判断。它在空间理解上表现出色,能以自然语言与人类交互,并评估任务是否成功,以及当前进度,并可以原生使用工具(如 Google 搜索)或用户定义的第三方函数来辅助推理。

然后 Gemini Robotics-ER 1.5 会为每一步操作生成自然语言指令,由 Gemini Robotics 1.5 接收这些指令,结合视觉与语言理解,直接驱动机器人电机执行具体动作。Gemini Robotics 1.5 也具有“思考”能力,使得机器人能更好地解决语义复杂的任务,甚至以自然语言形式解释其思考过程,从而提高透明性。

image


强大的时空推理模型 Gemini Robotics-ER 1.5

Gemini Robotics-ER 1.5 是为机器人场景专门微调的模型,具备以下新能力:

  1. 快速而强大的空间推理
    模型可在低延迟条件下实现最先进的空间理解能力,擅长生成语义精确的二维点坐标。这些坐标基于对物体尺寸、重量与可操作性的推理,从而支持类似“指向任何你能拿起的物品”的交互请求。
  2. 协调复杂的智能体行为
    借助空间与时间推理、任务规划与完成检测能力,模型在长周期任务执行中保持稳定。它还可原生调用外部工具或第三方函数以辅助完成任务。
  3. 灵活的思考 token 预算
    用户可以控制模型在延迟与准确性之间的权衡。复杂任务(如多步组装)可允许模型“思考更久”,而实时反应任务(如检测或指认物体)则可要求快速响应。
  4. 改进的安全过滤机制
    语义层面的安全性得到加强,模型更善于识别并拒绝生成违反物理约束的操作,例如超出机器人载重限制的行为。


先进的空间理解能力

机器人要与物理环境交互,必须具备对环境的精准感知与理解。

2D 坐标点生成

Gemini Robotics-ER 1.5 经过微调,可生成高质量的二维坐标,用于标识物体在图像平面中的位置。结合机器人的三维传感数据,可推断物体在现实空间中的精确位置,以便规划系统生成运动路径。

例如,面对一张厨房场景图像,模型可返回多组物体位置点(若这些物体确实出现在图中)。这些点采用 [y, x]​ 格式并以 0 至 1000 归一化。若请求对象不存在(如“独角兽”),模型不会生成对应点,避免幻觉输出。

提示词

请指出图像中的以下物品:洗洁精、碗碟架、水龙头、电饭煲、独角兽。坐标点格式为 [y, x],归一化到 0-1000 范围内。仅包含图像中实际存在的物体。

响应

image

时间推理

在时间维度上,模型具备理解视频序列中的动作顺序与因果关系的能力。例如,当观看展示双臂机器人操作的短片并被询问“执行步骤的顺序是什么”时,模型能够按照时间戳的顺序进行正确描述,表明它理解了场景中发生的动作,而不仅仅是识别静态物体。

提示词

请详细描述完成任务的每一步。按时间戳分解,并以 JSON 格式输出,包含 'start_timestamp'、'end_timestamp' 和 'description' 三个键。

响应

[{"start_timestamp": "00:02","end_timestamp": "00:13","description": "左侧机械臂从桌上拿起绿色记号笔,并将其放入木制托盘中。"},{"start_timestamp": "00:15","end_timestamp": "00:22","description": "左侧机械臂从桌上拿起蓝色笔,并将其放入黑色网状笔筒中。"},{"start_timestamp": "00:23","end_timestamp": "00:28","description": "右侧机械臂从桌上拿起红色笔,并将其放入黑色网状笔筒中,完成了整理书写工具的任务。"}
]

基于可操作性的推理,实现长周期任务规划

机器人学中,物体的可操作性,即该物体可以被怎样物理交互或使用,如可抓取、可旋转、可支撑重量等。基于可操作性的推理,强调该模型不仅能识别物体是什么(感知层面),还可以理解并推理机器人如何与这个物体交互。如:

  • 在制作咖啡的示例中,模型不仅识别“这是咖啡杯”,还判断杯子可以被抓起,并放到咖啡机下方;
  • 在关闭咖啡机盖子的任务中,模型能够推断盖子的“可旋转”或“可下压”的特性,并规划相应的机器人动作。

例如,在咖啡制作示例中,模型不仅识别放置杯子的位置,还能规划关闭咖啡机盖子的轨迹;任务完成后,还能判断将杯子放在何处便于后续清理。

提示词

请指出我应该把杯子放在哪里才能制作一杯咖啡。返回一个 JSON 对象列表,格式为:[{"box_2d": [y_min, x_min, y_max, x_min], "label": <标签>}],其中坐标归一化到 0-1000 范围内。

响应

如下图,模型在图中以方框形式准确标记了杯子应该放置的位置

image

提示词

接下来,我需要把咖啡机盖子关上。请绘制一条由 8 个点组成的轨迹,指示盖子手柄应该如何移动才能关闭。起点为手柄当前位置。点的格式为 [Y,X],归一化坐标范围为 [0 - 1000]。请输出所有点,包括轨迹点,格式为:[{"point": [Y, X], "label": }, {"point": [Y, X], "label": }, ...]。

响应

image

灵活的思考 token 预算控制

实际示例表明,在使用 Gemini Robotics-ER 1.5 时,思考 token 预算的不同会影响延迟与性能。随着思考预算的增加,模型性能随之提升。对于简单的空间理解任务(如物体检测),即使在极低预算下也能获得高性能;而更复杂的推理任务则更适合较大的预算。

该模型采用推理时计算资源动态扩展策略,使得思考预算可调。开发者可以设置思考预算,甚至关闭额外推理步骤,只需在请求中添加 thinking_config​ 参数即可。


安全性说明

Gemini Robotics-ER 1.5 在安全方面的主要提升包括:

  • 语义安全性:模型能理解并拒绝潜在危险或有害的任务计划,其能力已在相关标准测试集中得到验证。
  • 物理约束认知:模型加强了对机器人载重、工作空间等物理边界的识别能力,能够在生成计划时参考这些限制。

博士点评

谷歌还是 AI 届的王者,最早提出了 Transformer 模型架构。虽然被 OpenAI 偷袭了老家,但它还是全球智力资源、算力资源最密集的公司。从去年组织机构改组,把公司内部两支世界顶级的 AI 开发团队 DeepMind 和 Google Brain 整合起来后,立马推出了 Gemini 系列模型,从基准测试到产品体验,迅速从 OpenAI 扳回一局。相比之下,目前 Meta 公司的重组看起来更混乱无序,就看天价挖过去的“华人天团”是否给力了。

回到机器人具身智能模型,DeepMind 一直是 AI 改变现实世界的狂热研究者,从最早的 AlphaGo 战胜世界围棋冠军李世石,再到 AlphaFold 预测蛋白质结构颠覆了整个生物医药研发体系(创始人是历史上第一位靠 AI 拿了诺贝尔奖的人),并将 AI 用于核聚变控制、气候建模、材料研发等。相比而言, OpenAI 只是在无意中发现了大模型在文本对话和写作上的优势;“外星人”奥特曼借此在人气、商业上为自己博取了巨大利益,但这种成就对社会发展的实际意义相比 DeepMind 还是要低一点。

核能应用

Google 只是开放了模型的 API 使用,需要注册和登录谷歌云服务才能使用,并不是开放模型权重文件的下载,而谷歌的 API 在国内也访问不了。除非国内有机构能像 Deepseek 追赶 OpenAI 的推理模型 GPT-4o 一样,能自主开发实现相同的效果,并开源出来。

但预估 5-10 年内这个技术在国内也没法复现。目前国内顶尖 AI 公司的精力,都还放在追赶国外的语言大模型、多模态大模型性能上;压根没有余力,在机器人具身智能模型上追赶。现在国内玩具身智能模型的,都是高校或者一批新兴的机器人小 Startup,目前都还忙着发论文或拉风投呢。没有大企业的高密度智力资源投入,机器人具身智能模型在国内短期内是难以追赶上谷歌步伐的。

扫码_搜索联合传播样式-标准色版

http://www.hskmm.com/?act=detail&tid=18791

相关文章:

  • 完整教程:测试自动化教程:Parasoft如何流重定向与单元测试自动化
  • 用 Zig 实现英文数字验证码识别
  • 用 Crystal 实现英文数字验证码识别工具
  • 基于 Nim 的英文数字验证码识别工具实现
  • 完整教程:数组(Java基础语法)
  • AI信任心理学:构建可信赖人工智能系统的实用指南
  • 英语_阅读_Robot
  • 模仿Teamcenter(UIHealthDetector) 实现 系统托盘
  • 一个纯净的自动微分框架—autograd
  • PHP 8.2 vs PHP 8.3 对比:新功能、性能提升和迁移技巧
  • 使用油猴脚本去除浏览器搜索的URL后缀,减少广告
  • 浅谈并分享一种较为高效的学习方法
  • 英语_阅读_Industry 4.0_待读
  • Python获取CPU和内存使用率
  • 解决Python requests库POST请求参数顺序问题
  • 使用Tabs选项卡组件快速搭建鸿蒙APP框架
  • 完整教程:从另一个视角看Transformer:注意力机制就是可微分的k-NN算法
  • ACM 杂题选做 题解合集
  • | 和 || 的区别详解及应用场景对比
  • Kubernetes技巧:使用Prometheus监控Pod性能指标
  • 2025.9.27——1橙
  • 在Java 12环境中配置和部署Apache Tomcat
  • android pdf框架-14,mupdf重排 - 详解
  • 详细介绍:基于物联网的智能衣柜系统的设计(论文+源码)
  • 确定Ceph集群中OSD组件与具体物理磁盘的关联
  • JavaScript加解密实践
  • Linux系统中使用df命令详解磁盘使用情况
  • 读人形机器人24岗位替代
  • 在Ubuntu 18.04/20.04 LTS设置静态DNS服务器
  • 分布式 ID 生成方案实战指南:从选型到落地的全场景避坑手册(三) - 实践