当前位置: 首页 > news >正文

机器人视觉系统在复杂环境中的自主决策与学习

机器人视觉系统在复杂环境中的自主决策与学习

在某中心的物流中心内,当包裹在传送带上滚动时,Robin机械臂开始工作。它俯身拾取包裹,进行扫描,然后将其放置到小型驱动机器人上,由机器人将其路由至正确的装载码头。当驱动机器人卸下包裹时,Robin已经装载了更多送货机器人。

虽然Robin看起来与工业中使用的其他机械臂很相似,但其视觉系统使其能够以完全不同的方式感知环境并做出反应。

"大多数机械臂在受控环境中工作,"某中心机器人与人工智能部门软件开发高级经理解释道。"例如,如果它们焊接车架,它们期望部件位于固定位置,并遵循预设的动作序列。它们并不真正感知周围环境。"

"Robin处理的是一个周围事物不断变化的世界。它理解那里有什么物体——不同尺寸的盒子、软包装、叠放在其他信封上的信封——并决定它想要哪一个然后抓取它。它完成所有这些操作都不需要人类为每个动作编写脚本。Robin所做的在研究领域并不罕见,但在生产环境中却很不寻常。"

然而,得益于机器学习,Robin及其先进的感知系统正在迅速投入生产。当2021年开始与这款机器人合作时,某中心仅在其物流中心运营着几十台设备。如今,该团队正在显著扩展这一感知系统。

为实现这一目标,某中心机器人研究人员正在探索使Robin达到无与伦比的生产精度水平的方法。由于某中心非常注重通过及时交付来改善客户体验,即使99.9%的准确率也无法满足机器人研究人员的标准。

训练阶段

过去五年中,机器学习显著提高了机器人观察、理解环境并对其进行推理的能力。

过去,经典计算机视觉算法系统地将场景分割成单个元素,这是一种缓慢且计算密集的方法。监督式机器学习使这一过程更加高效。

"我们不会明确说明模型应该如何学习,"某中心机器人与人工智能部门软件开发经理表示。"相反,我们给它一个输入图像并说'这是一个物体'。然后它尝试识别图像中的物体,我们对其表现进行评分。仅使用这种监督反馈,模型学习如何从图像中提取特征,以便对其中的物体进行分类。"

Robin的感知系统从预训练模型开始,这些模型已经能够识别如边缘和平面等物体元素。接着,它被教导识别物流中心分拣区域内发现的包裹类型。

当提供丰富的样本图像时,机器学习模型学习效果最佳。然而,尽管每天运送数百万个包裹,该团队最初发现很难找到足够的训练数据来捕捉传送带上不断滚动的箱子和包裹的巨大变化。

"所有东西都以各种尺寸和形状混杂在一起,有些叠放在其他物品上,有些在阴影中,"经理解释道。"在假日期间,你可能会看到小黄人或Billie Eilish的图片与通常的棕色和白色包裹混在一起。胶带可能会变化。"

"有时,即使对人类来说,也很难看到一个包裹与另一个包裹之间的差异。你可能有一个白色信封在另一个白色信封上,两者都起皱了,所以你无法分辨一个从哪里开始,另一个从哪里结束,"她解释道。

为了教导Robin的模型理解它所看到的内容,研究人员收集了数千张图像,围绕如盒子、黄色、棕色和白色邮寄袋以及标签等特征画线,并添加描述。然后团队使用这些带注释的图像不断重新训练机器人。

训练在模拟生产环境中继续进行,机器人在带有测试包裹的实时传送带上工作。每当Robin未能识别物体或进行抓取时,研究人员就会注释错误并将其添加到训练集中。这种持续的训练方案显著提高了机器人的效率。

持续学习

在这些测试中,Robin的成功率显著提高,但研究人员追求近乎完美。"我们希望真正擅长处理这些随机边缘问题,这些问题在测试期间只出现几次,但在现场以更大规模运行时会更频繁发生,"经理说。

由于Robin在测试中的高准确率,研究人员发现很难找到足够的这些错误来创建用于进一步训练的数据集。"一开始,我们必须想象机器人会如何犯错,以便创建可用于改进模型的数据类型,"经理解释道。

该团队还监控Robin对其决策的信心。例如,感知模型可能表示它自信地发现了一个包裹,但对将其分配到特定类型的包裹信心不足。该团队开发了一个框架,确保这些低置信度图像自动发送给人类进行注释,然后添加回训练集。

"这是持续学习的一部分,"应用科学高级经理说。"它非常强大,因为每个包裹都成为一个学习机会。每个机器人都贡献经验,帮助整个机队变得更好。"

这种持续学习带来了巨大改进。"在短短六个月内,我们将Robin感知系统无法抓取的包裹数量减少了一半,并将感知系统产生的错误减少了十倍,"经理指出。

然而,机器人在生产中仍会犯错,必须予以纠正。如果Robin掉落包裹或将两个邮寄袋放在一个分拣机器人上,会发生什么?虽然大多数生产机器人对错误视而不见,但Robin是个例外。它监控自己的性能以防失误。

Robin的质量保证系统监督其处理包裹的方式。如果发现问题,它会尝试自行修复,如果无法解决,则会请求人工干预。"如果Robin发现并纠正错误,可能会损失一些时间,"经理解释道。"然而,如果根本不处理该错误,我们可能需要一两天时间才能将该产品送达客户。"

扩展Robin感知

当只有几十台设备在生产中时,该经理加入了Robin感知团队。他的目标:将感知系统扩展到数千个机械臂。为实现这一目标,该团队不仅专注于捕获和注释错误以进行持续学习,还寻求这些错误的根本原因。

他们依赖Robin感知的用户界面,该界面让工程师能够通过机器人的眼睛查看并追踪其视觉系统如何做出决策。例如,他们可能会发现一个Robin拾取了两个包裹,因为它无法区分两者;或者另一个由于深度信号噪声而未能抓取任何包裹。审计Robin的决策让某中心机器人工程师能够微调机器人的行为。

这得到了从每天分拣超过100万件物品的机器群队得出的指标的补充。"一旦你拥有那种数据,你就可以开始寻找相关性,"经理说。"然后你可以说决策延迟与机器的这个属性或场景的这个属性相关,这是我们可以关注的。"

群队指标提供了比任何单台机器所能看到的更广泛场景和问题的数据,从损坏的灯光到粘在传送带上的地址标签。这些数据用于每几天重新训练Robin一次,使其对其工作的世界有更广泛的理解。

它还有助于某中心提高效率。在Robin拾取包裹之前,它必须首先分割杂乱场景,决定要抓取哪个包裹,计算如何接近该包裹,并选择使用其八个吸盘中的多少个来拾取它。选择太多可能会抬起多个包裹;太少则可能掉落货物。

这一决策需要的远不止计算机视觉。"关于抓取什么和在哪抓取的决策是通过学习系统、优化、几何推理和3D理解的组合完成的,"某中心机器人人工智能首席应用科学家解释道。"有许多相互作用的组件,它们都需要适应不同地点和地区看到的变化。"

"效率和良好决策之间总是存在权衡,"经理继续说道。"这是一个重大的扩展挑战。我们在离线状态下进行了大量实验,使用非常杂乱的场景和其他会减慢机器人速度的情况来改进我们的算法。当我们满意时,我们会在小部分群队上运行它们。如果表现良好,我们会将其推广到所有机器人。"

这些推广之所以成为可能,还因为软件被重写以支持定期更新,一位软件开发经理表示。"软件是模块化的。这样,我们可以升级一个组件而不影响其他组件。它还允许多个组同时处理不同的改进。"这种模块化使感知系统的关键部分能够每周自动重新训练两次。

这也不是一项简单的任务。Robin有数万行代码,因此该团队花了几个月时间才充分理解这些代码如何相互交互,以便模块化其组件。这一努力是值得的。它使Robin更易于升级,并最终能够在减轻运营中断的同时按需进行自动群队更新。

下一代机器人感知

这些持续改进对于在某中心的规模上部署Robin至关重要,经理解释道。团队的目标是每周自动更新Robin机器人群队几次。

"我们正在增加对Robin的使用,"经理说。"为此,我们必须继续提高Robin处理那些随机边缘情况的能力,使其永远不会错误分拣,具有出色的运动规划,并以其手臂能够处理的最快安全速度移动——所有这些都有充足的时间。"

这意味着甚至需要更多创新。以包裹识别为例。Robin的感知系统需要能够发现一堆包裹,并知道从顶部开始以避免打翻堆。"Robin也有如何做到这一点的意识,但随着我们不断添加新类型的包装,我们需要机器学习来加速Robin决定哪个包裹最有可能成功抓取的方式,"经理解释道。

经理相信,基于机器人和包裹移动物理的更强大的数字模拟将实现更快的创新。"当我们谈论可变形包裹时,比如软邮寄袋中的水瓶,这是非常困难的,"她说。"但我们正在越来越接近。"

从长远来看,她希望看到自学习机器人能够教导自己减少错误并更快地从错误中恢复。自学习还将使机器人更易于使用。"部署机器人不应该需要博士学位,"经理说。

"有一个独特的机会让这个群队自动适应,"科学家同意道。"关于如何实现这一点存在开放性问题,包括单个机器人是否应该自行适应。群队已经使用全球收集的数据更新其物体理解。我们如何让单个机器人适应它们看到的局部问题——例如,如果其中一个吸盘被堵塞或撕裂?"

最终,经理想利用某中心机器人研究人员学到的知识来创建新型机器人。"我们只触及了机器人可能性的表面,"他说。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

http://www.hskmm.com/?act=detail&tid=29675

相关文章:

  • 2025开关按钮厂家最新权威推荐榜:品质卓越与创新设计的行业
  • 装饰器
  • 记录一下 WPF进程 SendMessage 发送窗口消息进行进程间通信,存在进程权限无法接受消息的问题
  • 正睿25noip十连测day5
  • kettle插件-dm数据库插件,解决kettle9.X版本无法连接数据库资源库问题
  • 2025年10月武汉防水公司TOP5权威推荐榜:专业施工与优质服务的行业
  • 2025开发区婚纱照公司最新权威推荐榜:创意拍摄与贴心服务的
  • 用户交互scanner方法学习及使用示例
  • 2025工业网线厂家最新权威推荐榜:稳定传输与耐用品质的首选
  • 完整教程:STM32H743-ARM例程11-PWM
  • 20231427田泽航实验一-4
  • 2025铝合金微弧氧化定制厂家权威推荐榜:品质卓越与技术创新
  • 20231427田泽航实验一-3
  • 信息安全设计/密码系统设计 实验1-1
  • 2025年10月拉伸器厂家最新权威推荐榜:高效稳定与卓越品质的行业首
  • 2025数粒机厂家最新权威推荐榜:精准高效与智能控制的行业首
  • Spring拦截器HandlerInterceptor与Filter方法执行顺序探究
  • 2025精加工车间恒温恒湿系统TOP5榜单:精准控温与高效节
  • 第四章作业
  • 2025数控滚齿机订制厂家权威推荐:高精度与高效能的首选品牌
  • 2025婚纱摄影工作室权威推荐榜:捕捉幸福瞬间的创意大师
  • 详细介绍:初学者小白复盘11之——指针(1)
  • 2025-10-12
  • hex、bin、axf文件的区别
  • 20232417 2025-2026-1 《网络与系统攻防技术》实验一实验报告
  • 2025黄金回收品牌TOP5权威榜单:值得信赖的高性价比厂家
  • [数据分析/BI] Microsoft Power BI 使用指南
  • 机器人技术在现实世界中的挑战与创新
  • Motorola和Inter的区别
  • ROS2之TF