长视频理解与合成技术进展
在今年的计算机视觉与模式识别会议(CVPR)上,某中心视频团队展示了四篇论文,涵盖了我们在前沿问题研究上的广泛工作范围。
基于电影元数据的场景表示学习
在《Movies2Scenes:使用电影元数据学习场景表示》论文中,我们提出了一种新颖的对比学习方法,仅使用常见的电影元数据来学习通用场景表示。在使用多个基准数据集评估的多样化任务中,使用我们表示的模型始终优于使用现有最先进表示的模型。
值得注意的是,在长视频理解(LVU)数据集的七个分类任务和两个回归任务中,我们学习的表示平均提高了7.9%和9.7%。这项工作朝着构建首个通用电影理解基础模型迈出了重要一步。
选择性结构化状态空间模型
在另一篇论文《选择性结构化状态空间用于长视频理解》中,我们扩展了最近提出的S4模型,采用轻量级掩码生成器自适应选择信息丰富的图像标记,从而更有效地建模视频中的长期时空依赖关系。
我们的方法始终比之前的最先进模型更准确,在一个数据集上提高了9.6%,同时内存占用减少了23%。
多模态模型的动态推理
我们的论文《基于 grounding 的视觉语言模型的动态推理》探索了大型视觉语言模型中的计算冗余问题,通过动态跳过网络层、丢弃输入标记和融合多模态标记来解决这一挑战,这些操作都基于输入的图像-文本对进行条件化。
我们的结果显示,我们可以在多个下游任务上将最先进模型的运行效率提高高达50%,而准确率仅下降0.3%。
标签高效的图像协调方法
最后,我们的论文《LEMaRT:标签高效掩码区域变换用于图像协调》解决了训练图像协调模型需要大量标注数据的问题。为此,我们的方法通过模拟图像协调模型预期要消除的外观缺陷来自动生成训练数据。
当仅在一个标准基准(iHarmony4)的50%训练数据上进行微调时,我们的方法比之前的最先进方法提高了0.4dB(均方误差改进约9%);在使用完整训练数据集训练时,提高了1.0dB(MSE改进约21%)。
电影理解基础模型的构建
"基础模型"通常涉及(i)单个大型模型,(ii)在大量未标记数据上训练,并且(iii)可以驱动多个下游任务。虽然存在几个通用的视觉和文本基础模型,但在我们的工作之前,还没有专门针对电影理解的基础模型。
这部分是因为直接将现有的视觉或文本基础模型应用于电影理解效果有限,考虑到电影内容与用于训练这些模型的网络爬取图像和文本之间存在大的领域差距。
为了解决这些挑战,我们提出了一个新颖模型,在从数千部电影中自动识别的超过500万个场景上训练,包含超过4500万帧。我们的模型不需要任何手动标注,仅依赖于常见的电影级别信息(类型、剧情简介等)。
降低长视频理解的模型复杂性
在某中心视频,我们正在开发最先进的AI模型用于电影内容理解,以促进各种下游用例。实现这一目标的关键技术问题之一是有效建模复杂的时空依赖关系,特别是在长视频如电影和电视节目中。
最近提出的结构化状态空间序列(S4)模型以其线性复杂度在这个领域提供了有希望的方向;然而,我们经验证明,像S4模型那样平等对待所有图像标记可能会不利影响模型的效率和准确性。
为了解决这一挑战,我们提出了一个新颖的选择性S4(即S5)模型,它采用轻量级掩码生成器自适应选择信息丰富的图像标记,从而更有效地建模视频中的长期时空依赖关系。
使用强化学习进行多模态模型的动态推理
支持在多数据模态上运行的Transformer模型以及大规模预训练方法的可用性,已经在联合图像语言模型方面取得了显著进展。然而,这些模型计算成本高,因此运行时效率低,使其难以应用于某中心视频的大型目录。
为了解决这一挑战,我们提出了一个模型,通过动态跳过多模态网络的层、从语言主干、图像主干或两者中修剪输入标记,以及融合来自独立主干的标记来节省计算,这些操作都基于输入的图像-文本对进行条件化。
提高图像协调模型的标签效率
图像协调是更广泛的图像合成问题的重要组成部分,其中通过从一个图像中提取前景区域并将其以照片般真实的方式转移到另一个图像来创建新图像。
图像协调的主要技术挑战是从源图像提取的前景与目标图像背景之间的外观不匹配。图像协调旨在调整前景的外观,使其与背景兼容。
为了解决这一挑战,我们引入了一种新颖的预训练图像协调模型方法LEMaRT,它通过模拟图像协调模型预期要消除的缺陷类型来自动生成训练数据。
使用我们的LEMaRT方法预训练我们的SwinIH模型,在图像协调方面达到了新的最先进水平,同时具有标签效率,即与现有方法相比,微调消耗的标注数据更少。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
公众号二维码
公众号二维码