多机器人协同首现基础模型技术突破
大型语言模型等基础模型引入了AI新范式:无需数据标注,通过海量数据自监督训练的大模型可学习通用能力。该范式最著名的应用集中在语言、图像和视频生成领域。但这一技术还能应用于何处?
在某机构,答案在于管理机器人集群。今年6月,我们宣布开发出新型基础模型DeepFleet,用于预测物流中心和分拣中心内移动机器人的交互行为。尽管仍需完善,但DeepFleet已能协助分配任务并规避拥堵,使机器人部署效率提升10%,从而实现更快速、低成本的包裹配送。
技术挑战与解决方案
为何需要基础模型?
尽管清楚机器人的运行算法,但实时模拟数千台机器人的交互需消耗巨额计算资源。相比之下,学习型模型能快速推断交通流模式。我们将位置预测视为预训练任务,如同基于下一词预测训练的聊天机器人能回答多样化问题,基于位置预测的预训练可使AI为移动机器人集群生成通用解决方案。
数据与算力优势
某机构拥有部署超百万台机器人积累的数十亿小时导航数据,同时作为最大云计算服务商,具备训练海量模型的计算能力。研究证实,与其他基础模型类似,机器人集群模型的性能随训练数据量增加持续提升。
模型架构设计
架构迁移与挑战
将LLM架构适配于机器人位置预测时,需解决关键问题:输入输出应包含单机器人状态还是整个场地状态?场地如何表征(相对特征/图像/图结构)?时间维度如何处理?
四种实验模型
所有模型均将作业场地建模为网格单元,包含机器人(载货/空载)、障碍物、存储位等元素。模型采用Transformer架构生成输入数据的嵌入表示:
-
以机器人为中心模型
聚焦单个"自我机器人",编码其状态及邻近30台机器人、100个网格单元和物体的状态。通过Transformer融合嵌入,解码器基于状态序列预测下一动作。 -
机器人-场地模型
使用交叉注意力机制融合机器人嵌入与场地状态嵌入,捕获机器人间及机器人与场地关系,通过输出头预测动作。 -
图像-场地模型
将网格单元视为像素,使用卷积神经网络处理静态与动态特征。通过Transformer同时关注时空特征,卷积解码器还原二维表示。 -
图-场地模型
将场地建模为时空图,通过图神经网络迭代生成节点嵌入。注意力机制利用边嵌入计算节点间关注分数,最终解码机器人状态预测。
性能评估
采用动态时间规整距离和拥堵延迟误差两项指标评估:
- 以机器人为中心模型在多数指标表现最优
- 图-场地模型以1300万参数量取得接近效果
- 图像-场地模型因卷积网络不适用像素级预测而效果不佳
扩展实验表明,模型性能随训练数据量增加持续提升。目前正推进前三类模型的开发应用,初期用于拥堵预测,长期目标为生成任务分配与目标定位方案。
技术细节详见arXiv完整论文
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
公众号二维码
公众号二维码