体育视频分析中的计算机视觉技术创新
在国际计算机视觉应用冬季会议上展示的两篇论文提出了增强视频流体验的神经网络模型。
体育场地注册
体育场地注册涉及将视频图像映射到场地的地形模型上,以实现视频源的增强。这项技术支持着美式足球转播中的虚拟首攻线和游泳转播中的虚拟世界纪录线。
传统方法需要配备传感器并与场地参考点校准的现场摄像机。我们解决了在缺乏仪器设备情况下,使用具有平移、倾斜和变焦功能的单摄像头视频进行体育场地注册的问题。
与以往仅使用少量关键点(通常是场地上线条交叉点)建模场地地形的方法不同,我们使用密集关键点网格对场地进行建模。通过根据我们的建模方案注释的视频,我们训练神经网络将图像像素与场地模型中的特定关键点关联起来。
密集网格提高了注册精度,但非线条交叉点的关键点更难识别。因此,我们使用第二组信息源来改进映射:一组表示场地上线条之间和其他可识别区域之间标准距离的密集场地特征。
传统足球场模型(左)与我们的密集关键点网格模型(右)对比
美式足球场(上);场地线性和区域特征图(中);基于距离的特征表示(下)
我们的网络架构具有以下特点:
- 是多任务网络:从输入数据生成单一向量表示,同时传递给关键点估计器和密集特征提取器
- 仅在关键点估计不准确时使用密集特征进行验证
- 包含自验证和在线精化模块
通过结合这些技术,我们的体育场地注册系统能够实时工作。在足球、美式足球、冰球、篮球和网球五个数据集上的测试表明,我们的系统性能从与基线相当到明显更优。例如在美式足球中,我们的系统比最佳基线的准确度高出2.5倍。
片头和回放检测
现有内容需要手动编码才能提供跳过片头和回放的选项。我们希望通过自动检测片头和回放来将该选项扩展到其他节目。
片头和回放具有可检测的区分特征:片头通常包含叠加在屏幕上的文字(演职员表),背景常有延长的音乐表演;回放通常涉及场景间的快速切换,且常由文字引入。
我们的检测器是神经网络,其架构选择旨在最大化对片头和回放这些元素的响应。与需要整个视频系列来查找时间戳的替代方法不同,我们的方法可以独立处理每个剧集。
系统架构:
- 卷积神经网络处理视频帧和音频,学习音视频的融合表示
- 双向长短期记忆网络处理CNN输出,识别长期依赖关系
- 条件随机场执行曲线平滑,清晰识别片段边界
测试中,我们的系统显著优于所有四个基线方法。
片头和回放检测器架构。底部蓝线代表输入视频帧,CRF输出"R"代表回放,"I"代表片头,"C"代表内容
这些创新技术展示了计算机视觉在增强视频流体验方面的巨大潜力,为体育转播和影视内容提供了更加智能和便捷的观看体验。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
公众号二维码
公众号二维码