当前位置：首页 > news >正文

RoI Pooling / Align

news 2025/10/15 18:05:22

RoI Pooling 与 RoI Align 都是“把不同大小的候选框（RoI）变成固定尺寸特征图”的操作，但 RoI Pooling 用量化→粗糙对齐，RoI Align 用双线性插值→子像素对齐，后者精度更高，已成为 2025 年检测/分割标配。

下面用“1 张图 + 2 段代码 + 3 个数字”一次讲清，面试直接背。

一、为什么必须“统一尺寸”

表格

复制

模块	输入	要求
检测头 / 分割头	任意框 (N×4)	固定张量 (N×7×7×256)
全连接 / Transformer	可变长	定长向量

→ 需要 “框 → 特征图” 的桥梁：RoIX

二、RoI Pooling vs Align 流程对比

表格

复制

步骤	RoI Pooling (2015)	RoI Align (2017)
1. 框坐标	浮点 x1,y1,x2,y2	同上
2. 量化→粗糙	`quant = floor(x/stride)`	不量化保持浮点
3. 分 bin	7×7 整数格	7×7 浮点格
4. 采样点	每 bin 左上角 1 点	每 bin 4 子点（双线性插值）
5. 特征值	直接取整坐标	4 子点双线性平均
结果	对齐误差 0~1 像素	子像素精度

对齐误差 → 小目标、分割边缘 mAP↓1-2%；Align 修复。

三、子像素采样图解（7×7 输出）

复制

bin 位置（浮点）
├─ 量化后 → 整点（Pooling）→ 边缘错位
└─ 4 子点 → 双线性插值（Align）→ 无错位

4 子点坐标：

复制

s = 0.5, 1.5, 2.5, ..., 6.5
每 bin 宽 h/7，步长 h/7

四、代码级（MMDetection 风格）

Python

复制

# RoI Pooling（旧）
roi_layer=dict(type='RoIPool', output_size=7, spatial_scale=1./16.)# RoI Align（2025 默认）
roi_layer=dict(type='RoIAlign', output_size=7, sampling_ratio=0, spatial_scale=1./16.)

sampling_ratio=0 → 自动 2×2=4 子点；设 1 → 3×3=9 点，更精细但慢。

五、精度对比（COCO 2017）

表格

复制

模型	头类型	AP @0.5:0.95	AP_s
Faster R-CNN	RoI Pool	39.3	21.8
Faster R-CNN	RoI Align	40.7	23.1

小目标 AP_s ↑1.3%，边缘分割更锐利。

六、金句

“RoI Pooling 量化取整导致边缘错位；RoI Align 保持浮点 + 双线性插值 4 子点，实现子像素对齐，2025 年检测/分割已全面替换。”

http://www.hskmm.com/?act=detail&tid=31722

相关文章：

时延估计算法ETDGE的解析

2025年10月最新房产信息公布：西安买房新楼盘口碑推荐榜单Top10精选

RTX低成本迁移方案，支持国产环境

2025 年国内小程序开发优质机构最新推荐排行榜：覆盖多领域需求，助力政企精准选型

基于DSP28335的SVPWM矢量控制实现

2025年10月权威信息公布：西安买房新楼盘口碑推荐榜单Top10~地建嘉信臻境领衔

Python 受保护成员和私有成员

2025 年钢制拖链源头厂家最新推荐排行榜：聚焦优质品牌助力企业精准选购，破解市场选型难题

2025 年北京律师事务所推荐：北京汇都律师事务所 —— 综合实力强、业务覆盖广且服务高效的专业法律机构

精确高效的API风险监测产品，筑牢运营商数据安全防线

《从数组到动态顺序表：数据结构与算法如何优化内存管理？》 - 教程

2025 年墙体广告公司最新推荐排行榜：聚焦下沉市场优质服务，助力品牌精准触达目标受众大型/ 户外/专业墙体广告公司推荐

创新：在张力中寻找新的平衡

全景式精准识别动态防护的金融数据安全管理方案 ——全知科技助力光大证券构建智能化、可视化、合规可控的数据安全体系

AI降噪、实时响应、闭环治理的政务数据安全管理方案 ——全知科技与教育部学位与研究生教育发展中心合作案例

2025 单招综评培训机构推荐榜：济南易升教育 5 星领跑，适配基础/冲刺/面试全流程备考

多维协同一键化部署合规可控的运营商数据安全管理方案

学习随笔一：低代码开发与 SQL 核心知识

实验1 现代C++基础编程

firewalld和iptables的区别与应用

视觉定位引导劈刀修磨系统赋能芯片封装

递归函数的精确时间统计

[HZOI]CSP-S模拟32

《植物大战僵尸融合版 V3.0（神秘版本）》详细图文教程：安装、存档继承与玩法解析

在 Qt Creator 中使用 Promote 功能让 QTabWidget 显示自定义页面

AI赋能标准化流程：智能汽车软件CI/CT最佳实践新范式

The 2023 ICPC Asia Shenyang Regional Contest K. Maximum Rating

用积木思维搞定TCP/IP——LuatOS快速上手指南