当前位置: 首页 > news >正文

tensor RT 进行gpu推理加速/模型部署

TensorRT,由NVIDIA精心打造,是一款专为深度学习推理任务设计的高效优化工具。它能够显著降低应用的延迟同时提升处理速度,是大规模数据中心、嵌入式设备以及自动驾驶技术等领域推理加速的理想选择。TensorRT的兼容性广泛,支持包括TensorFlow、Caffe、Mxnet和Pytorch在内的主流深度学习框架,与NVIDIA GPU的结合使用。

TensorRT本质上是一个推理加速器,它允许用户在模型训练完成后,直接将模型文件导入TensorRT进行优化,无需再依赖原始的深度学习框架。

 

模型训练:需要fp32,避免梯度下溢和舍入误差

梯度下溢:当梯度值非常小(小于 ~6e-8)时,在FP16中会变成0(即下溢)。一旦梯度变为0,对应的参数就无法更新,学习过程会停滞

舍入误差:在FP16中,由于精度有限,很多微小的更新(比如用一个很小的学习率乘以一个很小的梯度)可能会因为舍入误差而直接变为0。在数百万次的迭代中,这些微小的误差累积起来可能会导致模型无法收敛,或者收敛到一个很差的局部最优点。

模型推理:不涉及到反向传播(梯度计算),只需fp16

在FP32下训练好的模型,其权重和激活值的分布通常在一个合理的范围内。将其转换为FP16进行推理,对于绝大多数任务(如图像分类、目标检测、语音识别等)的最终输出精度影响微乎其微,通常只有小数点后几位的损失,但换来的却是巨大的速度提升和资源节省。

TensorRT 采用多种优化技术来提升深度学习模型的推理性能:

1、层间融合技术:

TensorRT 通过层间融合,将卷积层、偏置层和ReLU激活层合并为单一的CBR结构,实现横向和纵向的层融合。横向融合将这些层合并为单一操作,仅消耗一个CUDA核心,而纵向融合则将具有相同结构但不同权重的层合并成更宽的层,同样只占用一个CUDA核心。这种融合减少了计算图中的层数,降低了CUDA核心的使用量,从而使得模型结构更加紧凑、运行速度更快、效率更高。

2、数据精度优化:

在深度学习模型训练过程中,通常使用32位浮点数(FP32)来保证精度。然而,在推理阶段,由于不需要进行反向传播,可以安全地降低数据精度至FP16或INT8,这不仅减少了内存占用和延迟,还使得模型体积更小,提高了推理速度。

3、Kernel自动调优:

TensorRT 能够自动调整CUDA核心的计算方式,以适应不同的算法、模型结构和GPU平台。这种自动调优确保了模型在特定硬件上以最佳性能运行。

 

TensorRT 部署流程主要有以下五步:

1.训练模型

2.导出模型为 ONNX 格式

3.选择精度

4.转化成 TensorRT 模型

5.部署模型
Pytorch → ONNX → TensorRT

 

特性/维度PyTorch (直接推理)ONNX Runtime (ONNX Runtime)TensorRT
核心定位 研究与训练框架,兼顾推理 跨平台高性能推理引擎 NVIDIA平台极致性能推理SDK
工作流程 torch.jit.trace 或 torch.jit.script 导出模型 -> 用PyTorch C++/Python加载推理 PyTorch/TF等 -> 导出ONNX模型 -> ONNX Runtime加载并推理 PyTorch/TF/ONNX -> 转换和优化 -> 生成TensorRT引擎 -> 执行引擎
性能 较好。利用了PyTorch的优化,但包含一些为训练准备的冗余操作。 优秀。专为推理优化,支持图优化、算子融合等,性能通常优于原生PyTorch。 极致。在NVIDIA GPU上通常是性能天花板。通过内核融合、量化、自动内核调优等技术达到最优。
硬件支持 主要支持CPU和NVIDIA GPU(通过CUDA)。对其它硬件(如AMD GPU, NPU)支持有限或需要额外适配。 非常广泛。通过Execution Providers机制,支持CPU、NVIDIA CUDA/TensorRT、AMD ROCm、Intel OpenVINO、ARM NN、Android NNAPI等。“一次转换,多处运行”。 仅限NVIDIA GPU。包括GeForce, Tesla, Jetson等系列。
易用性与灵活性 最高。直接在训练框架内完成,调试方便,动态图模型(如带有控制流的)处理起来更自然。 高。ONNX是一个开放的标准,生态庞大。转换过程可能遇到不支持的算子,需要一些调试。 较低。优化和构建引擎需要时间,过程像是一个“黑盒”,调试难度较大。量化等操作可能会引入精度损失。
关键技术 TorchScript, torch.jit ONNX格式、图优化、多种Execution Providers 层与内核融合、精度校准(INT8量化)、内核自动调优、动态Tensor优化
典型应用场景 1. 研究原型快速验证
2. 对延迟不敏感的服务器端应用
3. 需要利用PyTorch动态图特性的场景
1. 需要跨平台部署(如同时部署在服务器CPU和边缘设备)
2. 希望获得比原生框架更好的性能,同时又不想被单一硬件厂商锁定
3. 云原生和微服务环境
1. 对延迟和吞吐量要求极致的场景(如自动驾驶、视频直播、高并发推荐系统)
2. 边缘设备(NVIDIA Jetson)
3. 需要INT8量化来大幅提升性能并降低功耗的场景

 

http://www.hskmm.com/?act=detail&tid=40630

相关文章:

  • MySQL 存储过程
  • Dynamics 365 online 按钮配置地址:/main.aspx?settingsonly=true
  • 替换法和sympy解方程5例
  • 2025 年浴室柜厂家最新推荐榜,技术实力与市场口碑深度解析
  • centos7编译安装openssl3.4
  • 2025 年 10 月石墨加工厂家推荐排行榜,高纯石墨加工,精密石墨加工,耐高温石墨加工,异形石墨加工公司推荐
  • 安装GMSSL时报错is not able to compie a sinple test program
  • 2025年口碑好的铜芯电缆品牌排行榜:鑫佰亿线缆引领行业品质革命
  • 2025年口碑好的铜芯电缆品牌推荐榜单
  • 2025:智能体元年|国内智能体培训机构优劣势对比
  • 2025年口碑好的化工设备品牌排名前十
  • 2025年反应釜品牌排行榜:江苏永润反应釜荣获第一
  • 2025年换热器品牌综合评测:江苏永润换热器领跑行业
  • 2025年口碑好的天然石材厂家排名前十推荐
  • 2025铝合金/装配式/工业/仓储/体育/场馆/机库/矿业/篷房厂家推荐榜:华烨海特斯以安全与定制引领行业变革
  • 2025 年注塑机定制厂家最新推荐榜,技术实力与市场口碑深度解析,甄选高精度节能优质品牌专用注塑机/瓶盖专用注塑机/电动工具专用注塑机公司推荐
  • 2025年小红书代运营/营销/推广/种草/探店推荐榜:广州布马五星领跑!全链路种草 + 数据转化,另2家公司凭垂类 / 联动 / 性价比显实力
  • 2025年市面上碳晶板品牌综合评测排行榜
  • 2025年口碑好的工装冰火板品牌综合评测与排名
  • 机器学习之支持向量机SVM
  • 2025年北京无需审核的小额贷款公司权威推荐榜单:小额贷款/企业小额贷款/申请小额贷款源头公司精选
  • 多功能视频处理工具:轻松搞定提音频、转 GIF、截图与合并
  • 2025年阻燃输送带生产厂家权威推荐榜单:尼龙输送带/三叶输送带/输送带源头厂家精选
  • 2025年水平桥架源头厂家排行榜前十强
  • 2025年水平桥架供应厂家推荐榜:顶级品牌盘点
  • 《导航切换》案例
  • 技术探究:Air8000工业引擎赋能的WiFi AP文件管理系统实现剖析!
  • iOS 26 内存占用监控 多工具协同下的性能稳定性分析实战
  • 图像处理效率神器:光影魔术手 4.7.2,小白也能秒出专业效果
  • 2025年太原办理防爆3C认证服务商权威推荐榜单:内蒙古防爆3C认证/呼和浩特办理防爆CCC认证/辽宁申请防爆3C认证机构精选