当前位置: 首页 > news >正文

低精度算术优化机器人定位效率

低精度算术使机器人定位更高效

通过为不同算术任务采用不同精度级别,可在不影响性能的前提下降低计算负担。

同步定位与建图(SLAM)是自主移动机器人的核心技术。它需要同时构建机器人环境地图并确定机器人在该地图中的位置。SLAM计算密集,在资源受限的机器人(如家用消费机器人)上部署通常需要使计算更易处理的技术。

其中一种技术是使用低精度浮点算术,即减少用于表示带小数点数字的位数。该技术在深度学习中很流行,将位数减半(从标准32位降至16位)可使计算效率翻倍,而对准确性影响很小。但将低精度算术应用于SLAM更为复杂。基于深度学习的分类模型是离散值的,而SLAM涉及求解具有连续值函数的非线性优化问题,需要更高的准确性。

某中心通过设计一种新颖的混合精度求解器来解决这个问题,该求解器将64位(fp64)、32位(fp32)和16位(fp16)精度结合用于SLAM算法中的非线性优化问题。这一创新为更快、更环保的设备端导航铺平了道路。

通用框架

SLAM算法有两个关键组成部分:视觉里程计和回环检测。视觉里程计基于最新观测实时估计机器人的位姿(即其在地图上的方向和位置)。当机器人识别出已到达先前访问过的地方时,它会通过全局校正其地图和位置估计来闭合回环。

视觉里程计和回环检测都涉及求解非线性优化问题——分别是束调整(BA)和位姿图优化(PGO)。为了高效求解,SLAM系统通常使用近似方法,将它们重新构造为一系列线性化优化问题。如果目标是找到位姿估计x,那么每个线性问题最小化线性化误差函数,该函数是当前误差函数及其一阶校正的总和。一阶校正是雅可比矩阵(函数一阶导数的矩阵)与位姿估计更新的乘积。线性问题通常通过分解法(使用Cholesky或QR方法)求解。每个线性化优化问题的解是当前位姿估计的更新。

通用程序是从x的当前近似开始,计算误差函数和雅可比矩阵,求解线性优化问题,并相应地更新x,重复该过程直到满足某些停止标准。在每次迭代中,误差函数的值被称为残差,因为它是前一次迭代剩余的残差误差。

BA和PGO非线性优化中最昂贵的计算是雅可比矩阵的计算(约占优化时间的15%)和线性问题的求解(约占60%)。简单地从头到尾以半精度(fp16)求解任一问题将导致精度降低,有时还会出现数值不稳定性。

为了缓解这些困难,我们对矩阵进行正则化和缩放以避免溢出和秩不足。秩不足发生在雅可比矩阵的列线性相关时。通过仔细实验,我们进一步确定了需要在高于fp16的精度下进行的计算,并提出了一种混合精度非线性优化求解器。

我们发现,为了匹配纯双精度解的准确性,以下两个组件必须在高于fp16的精度下计算:

  • 残差必须在单精度或更高精度下评估;
  • x的更新(一个六自由度位置角度更新)必须在双精度下完成。

尽管这个通用优化框架适用于BA和PGO,但由于线性问题中矩阵的结构和性质不同,两个应用的细节各不相同。因此,我们为相关的线性系统提出了两种混合精度求解策略。

视觉里程计

对于视觉里程计,传统上使用基于滤波器的方法,这些方法可能遭受较大的线性化误差。近年来,基于非线性优化的方法变得更受欢迎。这些方法通过最小化误差函数来估计机器人的位置和方向,该误差函数是地标重投影与其在图像帧中观测值之间的差异。这个过程称为束调整,因为我们在调整一束光线以匹配投影与观测。

基于BA的视觉里程计在包含固定数量(关键)帧的滑动窗口上运行。平均而言,新的关键帧以10Hz出现。挑战是在给定的时间预算内解决BA问题。一种流行的方法是求解与线性化优化问题等效的法方程;这涉及Hessian矩阵(残差的二阶导数矩阵)的近似。

BA问题涉及两组未知状态变量:一组表示机器人的位姿,另一组表示地标位置。减少BA问题计算负担的一种方法是边缘化相机位姿和地标之间的约束,并首先关注相机位姿。在SLAM社区中,这个过程称为Schur消除或地标边缘化。

这种边缘化步骤可以大大减小需要求解的线性系统的大小。对于一个50帧的BA问题,雅可比矩阵通常大小为5,500 x 1,000,Hessian大小为1,000 x 1,000。解耦约束将线性系统的大小减小到300 x 300,小到足以用直接或迭代求解器求解。然而,该策略需要Hessian矩阵的构建和部分消除步骤,这些步骤在实践中使用成本高昂。

我们的混合精度线性求解器(混合单精度和半精度)基于共轭梯度法方程残差(CGNR)方法,这是一种直接应用于线性优化问题而无需显式构建Hessian矩阵的迭代方法。

如在通用框架中,将所有计算简单转换为半精度将导致精度降低。在实验中,我们发现,如果以半精度计算矩阵-向量乘积,所有其他操作以单精度进行,我们将保持SLAM管道的整体准确性。

矩阵-向量乘积是CGNR迭代中的主要计算,通常占浮点运算次数的83%。这意味着,如果在NVIDIA V100 GPU上运行,混合精度求解器与单精度线性求解器相比可节省至少41%的求解时间。

回环检测

在SLAM管道中,来自VO的局部位姿估计通常表现出较大的漂移,尤其是长期运行时。回环检测纠正这种漂移。

对于真实世界的地图估计,没有LC校正,平均轨迹误差可能在0.1米量级,这在实践中是不可接受的。应用LC校正后,该误差减小到10^-4米。

指标 无LC的ATE (米) 有LC的ATE (米)
最大值 4.03E-01 5.83E-04
99%分位数 2.65E-01 5.71E-04
90%分位数 2.00E-01 5.57E-04
平均值 9.72E-02 3.19E-04

LC调整涉及求解全局PGO问题。与BA问题一样,它是一个非线性优化问题,可以在相同的混合精度框架内求解。但来自PGO问题的线性系统比BA问题的线性系统大得多且稀疏得多。

随着越来越多的回环闭合,问题大小可能从几百个位姿增长到几千个位姿。如果我们通过矩阵的行数来衡量矩阵的大小,在回环检测期间,大小可能从100量级增长到10,000量级。直接以双精度求解这种大小的稀疏矩阵具有挑战性,特别是考虑到设备端应用的时间和计算约束。对于真实世界的轨迹估计,PGO问题的求解时间可能增长到8秒,同时占用全部CPU使用率。

这导致为PGO问题设计混合精度求解器的策略不同。由于雅可比矩阵的稀疏性,我们的混合精度方法仍然基于迭代CGNR方法。但为了加速CGNR迭代的收敛,我们在每次迭代中应用静态不完全Cholesky预条件子。Cholesky分解将对称线性系统分解为两个三角矩阵的乘积,这意味着它们的所有非零值都集中在矩阵对角线的同一侧。这个分解步骤成本高昂,因此我们只对整个问题执行一次。计算成本主要由预条件子的应用主导,这涉及求解两个三角系统。在时间分析中,此步骤消耗每次线性求解中约50%的计算量。

为了加速优化,我们不是以半精度计算矩阵-向量乘积,而是以半精度求解三角系统,保持所有其他操作在单精度。使用这种混合精度求解器,我们几乎可以匹配全精度求解器的准确性,同时平均减少26%的计算时间。

在VO和LC应用中的结果表明,由于半精度算术的高效和低能耗特性,混合精度求解器可以使设备端SLAM更快、更环保。

致谢

以下人员对这项工作做出了同等贡献:某硬件机构的应用科学家;某硬件机构的应用科学经理;某设备机构的软件开发工程师;某硬件机构的副总裁兼杰出工程师;某设备机构的高级首席工程师;某硬件机构的软件、机器学习和移动性高级经理。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

http://www.hskmm.com/?act=detail&tid=27105

相关文章:

  • 2025 北京宽带安装公司最新推荐榜:优质服务商汇总,专业口碑双优之选,企业家庭装机必看指南北京企业/北京无线/北京商务/北京商业/北京店铺/北京商用宽带安装公司推荐
  • 2025 年供水设备源头厂家最新推荐榜:稳压给水 / 无负压供水优质企业权威解析
  • 2025 年国内优质不锈钢厂商最新推荐排行榜:含沈阳及东三省地区水箱油罐楼梯激光切割等产品服务商不锈钢水箱/油罐/水灌/油箱/楼梯/折弯厂家推荐
  • 假脱机技术
  • 2025 顶管源头厂家最新推荐榜单:F 型混凝土 / 水泥 / 电力 / 矩形 / 市政 / 排水 / 大口径顶管优质供应商精选
  • 2025 年 AI 教育机构最新推荐排行榜:涵盖企业 AI 培训、AI + 教育、AI 教育线下机构等领域的优质机构精选
  • 多智能体强化学习算法(MAPPO)
  • 《软件需求最佳实践》阅读笔记二
  • 2025 年最新台车炉实力厂家榜单发布,含大型燃气 / 天然气 / 热处理 / 全纤维等类型设备最新推荐及优质企业核心优势解析
  • Kubernetes Service详解:实现服务发现与负载均衡
  • Jmeter批量调用不同值参数的CSV
  • 【一步步开发AI运动APP】十二、自定义扩展新运动项目2
  • 2025 年最新真石漆厂家排行榜:别墅外墙 / 专业仿砖 / 天然涂料优质厂家最新推荐指南
  • if 和 else 的用法
  • The 4th Universal Cup
  • 18、更改公司电脑wifi密码
  • 有难度哦/Qt基于通用地图组件实现航迹规划和模拟/动态标注轨迹线/带序号和方向箭头指示
  • 【GitHub每日速递 251009】AI时代必备!Stagehand浏览器自动化框架解锁高效新玩法
  • iOS应用商店遭遇首次大规模恶意软件攻击
  • VMware ESXi 9.0.1.0 macOS Unlocker OEM BIOS 2.7 集成网卡驱动和 NVMe 驱动 (集成驱动版)
  • vue3使用ts传参教程
  • 解密prompt系列61. 手搓代码沙箱与FastAPI-MCP实战
  • MySQL 高可用构建方案详解
  • VMware ESXi 9.0.1.0 macOS Unlocker OEM BIOS 2.7 标准版和厂商定制版
  • 多机器人协同首现基础模型技术突破
  • PHP 图像处理实战 GD/Imagick 从入门到精通,构建高性能图像服务
  • 2025氧化镁厂家、活性氧化镁厂家、肥料级氧化镁厂家最新推荐榜:实力生产与优质供应之选
  • 2025学校家具定制厂家/书包柜厂家推荐榜:专业设计与安全品质首选
  • 2025农机带厂家最新推荐榜:质量可靠与耐用性能兼备之选
  • 2025深圳电源适配器厂家最新推荐榜:高效耐用与安全认证深度解析