当前位置: 首页 > news >正文

RoI Pooling / Align

RoI Pooling 与 RoI Align 都是“把不同大小的候选框(RoI)变成固定尺寸特征图”的操作,但 RoI Pooling 用量化→粗糙对齐,RoI Align 用双线性插值→子像素对齐,后者精度更高,已成为 2025 年检测/分割标配。
下面用“1 张图 + 2 段代码 + 3 个数字”一次讲清,面试直接背。

一、为什么必须“统一尺寸”

表格
复制
模块输入要求
检测头 / 分割头 任意框 (N×4) 固定张量 (N×7×7×256)
全连接 / Transformer 可变长 定长向量
→ 需要 “框 → 特征图” 的桥梁:RoIX

二、RoI Pooling vs Align 流程对比

表格
复制
步骤RoI Pooling (2015)RoI Align (2017)
1. 框坐标 浮点 x1,y1,x2,y2 同上
2. 量化**→粗糙** quant = floor(x/stride) 不量化 保持浮点
3. 分 bin 7×7 整数格 7×7 浮点格
4. 采样点 每 bin 左上角 1 点 每 bin 4 子点(双线性插值)
5. 特征值 直接取整坐标 4 子点双线性平均
结果 对齐误差 0~1 像素 子像素精度
对齐误差 → 小目标、分割边缘 mAP↓1-2%;Align 修复。

三、子像素采样图解(7×7 输出)

复制
bin 位置(浮点)
├─ 量化后 → 整点(Pooling)→ 边缘错位
└─ 4 子点 → 双线性插值(Align)→ 无错位
 
4 子点坐标:
复制
s = 0.5, 1.5, 2.5, ..., 6.5
每 bin 宽 h/7,步长 h/7
 

四、代码级(MMDetection 风格)

Python
复制
# RoI Pooling(旧)
roi_layer=dict(type='RoIPool', output_size=7, spatial_scale=1./16.)# RoI Align(2025 默认)
roi_layer=dict(type='RoIAlign', output_size=7, sampling_ratio=0, spatial_scale=1./16.)
 
sampling_ratio=0 → 自动 2×2=4 子点;设 1 → 3×3=9 点,更精细但慢。

五、精度对比(COCO 2017)

表格
复制
模型头类型AP @0.5:0.95AP_s
Faster R-CNN RoI Pool 39.3 21.8
Faster R-CNN RoI Align 40.7 23.1
小目标 AP_s ↑1.3%,边缘分割更锐利。

六、金句

“RoI Pooling 量化取整导致边缘错位;RoI Align 保持浮点 + 双线性插值 4 子点,实现 子像素对齐,2025 年检测/分割已全面替换。”
http://www.hskmm.com/?act=detail&tid=31722

相关文章:

  • 断言
  • 时延估计算法ETDGE的解析
  • 2025年10月最新房产信息公布:西安买房新楼盘口碑推荐榜单Top10精选
  • RTX低成本迁移方案,支持国产环境
  • 2025 年国内小程序开发优质机构最新推荐排行榜:覆盖多领域需求,助力政企精准选型
  • 基于DSP28335的SVPWM矢量控制实现
  • 2025年10月权威信息公布:西安买房新楼盘口碑推荐榜单Top10~地建嘉信臻境领衔
  • Python 受保护成员和私有成员
  • 2025 年钢制拖链源头厂家最新推荐排行榜:聚焦优质品牌助力企业精准选购,破解市场选型难题
  • 2025 年北京律师事务所推荐:北京汇都律师事务所 —— 综合实力强、业务覆盖广且服务高效的专业法律机构
  • 精确高效的API风险监测产品,筑牢运营商数据安全防线
  • 《从数组到动态顺序表:数据结构与算法如何优化内存管理?》 - 教程
  • 2025 年墙体广告公司最新推荐排行榜:聚焦下沉市场优质服务,助力品牌精准触达目标受众大型/ 户外/专业墙体广告公司推荐
  • 创新:在张力中寻找新的平衡
  • 全景式 精准识别 动态防护的金融数据安全管理方案 ——全知科技助力光大证券构建智能化、可视化、合规可控的数据安全体系
  • AI降噪、实时响应、闭环治理的政务数据安全管理方案 ——全知科技与教育部学位与研究生教育发展中心合作案例
  • 2025 单招综评培训机构推荐榜:济南易升教育 5 星领跑,适配基础/冲刺/面试全流程备考
  • 多维协同 一键化部署 合规可控的运营商数据安全管理方案
  • 学习随笔一:低代码开发与 SQL 核心知识
  • 实验1 现代C++基础编程
  • firewalld和iptables的区别与应用
  • 视觉定位引导劈刀修磨系统赋能芯片封装
  • @wraps(func)
  • 递归函数的精确时间统计
  • [HZOI]CSP-S模拟32
  • 《植物大战僵尸融合版 V3.0(神秘版本)》详细图文教程:安装、存档继承与玩法解析
  • 在 Qt Creator 中使用 Promote 功能让 QTabWidget 显示自定义页面
  • AI赋能标准化流程:智能汽车软件CI/CT最佳实践新范式
  • The 2023 ICPC Asia Shenyang Regional Contest K. Maximum Rating
  • 用积木思维搞定TCP/IP——LuatOS快速上手指南