实战应用 · 2数据准备与增强
核心概念
- 残差模块 (shortcut / cover block):通过卷积与捷径连接实现特征相加,保证深层网络训练稳定。
- NMS(非极大值抑制):用于去除多余重叠框,提升检测结果的准确性。
- Soft-NMS:对高度重叠框进行置信度衰减而非直接剔除,提高召回率。
- 预训练权重加载:在大数据集上训练好的参数迁移到新任务,加快收敛并提升精度。
- SPP (Spatial Pyramid Pooling):通过多尺度池化处理不同尺寸输入,使输出维度一致,增加感受野。
- CSPNet(Cross Stage Partial Network):将特征分为两部分,一部分直接传递,一部分经过卷积后再融合,减少计算量同时保持精度。
- PAN(Path Aggregation Network):在 FPN 基础上增加自底向上的路径,加强低层与高层特征的融合。
- 注意力机制(SAM):通过位置加权突出关键区域特征,提高模型关注度。
提出问题
- 深层网络如何避免梯度消失和退化?
- 如何在预测阶段去除冗余候选框?
- 小数据任务如何利用大规模训练经验?
- 输入图像大小不一致时,如何保持输出维度统一?
- 如何提升特征融合效果,提高检测精度?
论点与解决方案
- 网络稳定性:通过残差模块与捷径连接确保深层网络仍能有效训练。
- 候选框优化:
- NMS 过滤高度重叠框。
- Soft-NMS 保留可能的目标,提高召回率。
- 迁移学习:加载预训练权重,冻结或微调部分层,提升小数据任务表现。
- 多尺度适应:SPP 引入不同尺寸池化,使网络能处理任意输入大小。
- 计算优化:CSPNet 将特征切分并融合,降低冗余计算。
- 特征融合:
- FPN 自顶向下传递高层特征。
- PAN 增加自底向上的路径,双向融合特征。
- 注意力机制:SAM 模块通过空间权重调整,让模型聚焦关键区域。
关键机制 / 细节
- 残差模块:三次卷积(含 1×1 卷积提升通道数)+ 捷径分支相加。
- NMS:基于 IoU 阈值剔除重叠框;DIoU-NMS 同时考虑中心点距离。
- Soft-NMS:对重叠框置信度降低而非直接剔除。
- 加载权重:迁移学习时,前层保持冻结,最后层根据任务类别数重定义。
- SPP:池化层输出拼接后,保证输入任意大小都能输出固定特征。
- CSPNet:特征切分为两部分 → 一部分卷积 → 与原始部分拼接 → 降低计算量。
- PAN:特征金字塔结构中加入自底向上路径,低层特征向上传递。
- SAM:通过卷积计算空间权重图,与输入特征逐点相乘,提升显著区域权重。
总结
- 数据准备与增强环节 不仅包含输入图像的预处理,更涵盖网络结构优化与训练技巧。
- 残差、SPP、CSP、PAN、注意力机制 共同提升了 YOLO 系列的训练稳定性与检测精度。
- NMS 与 Soft-NMS 提供了推理阶段的关键优化,使检测结果更可靠。
- 迁移学习 大幅降低了小样本任务的训练难度,是工程落地的常用手段。