当前位置: 首页 > news >正文

长视频理解与生成技术突破

长视频理解与合成技术进展

在今年的计算机视觉与模式识别会议(CVPR)上,某中心视频团队展示了四篇论文,涵盖了我们在前沿问题研究上的广泛工作范围。

基于电影元数据的场景表示学习

在《Movies2Scenes:使用电影元数据学习场景表示》论文中,我们提出了一种新颖的对比学习方法,仅使用常见的电影元数据来学习通用场景表示。在使用多个基准数据集评估的多样化任务中,使用我们表示的模型始终优于使用现有最先进表示的模型。

值得注意的是,在长视频理解(LVU)数据集的七个分类任务和两个回归任务中,我们学习的表示平均提高了7.9%和9.7%。这项工作朝着构建首个通用电影理解基础模型迈出了重要一步。

选择性结构化状态空间模型

在另一篇论文《选择性结构化状态空间用于长视频理解》中,我们扩展了最近提出的S4模型,采用轻量级掩码生成器自适应选择信息丰富的图像标记,从而更有效地建模视频中的长期时空依赖关系。

我们的方法始终比之前的最先进模型更准确,在一个数据集上提高了9.6%,同时内存占用减少了23%。

多模态模型的动态推理

我们的论文《基于 grounding 的视觉语言模型的动态推理》探索了大型视觉语言模型中的计算冗余问题,通过动态跳过网络层、丢弃输入标记和融合多模态标记来解决这一挑战,这些操作都基于输入的图像-文本对进行条件化。

我们的结果显示,我们可以在多个下游任务上将最先进模型的运行效率提高高达50%,而准确率仅下降0.3%。

标签高效的图像协调方法

最后,我们的论文《LEMaRT:标签高效掩码区域变换用于图像协调》解决了训练图像协调模型需要大量标注数据的问题。为此,我们的方法通过模拟图像协调模型预期要消除的外观缺陷来自动生成训练数据。

当仅在一个标准基准(iHarmony4)的50%训练数据上进行微调时,我们的方法比之前的最先进方法提高了0.4dB(均方误差改进约9%);在使用完整训练数据集训练时,提高了1.0dB(MSE改进约21%)。

电影理解基础模型的构建

"基础模型"通常涉及(i)单个大型模型,(ii)在大量未标记数据上训练,并且(iii)可以驱动多个下游任务。虽然存在几个通用的视觉和文本基础模型,但在我们的工作之前,还没有专门针对电影理解的基础模型。

这部分是因为直接将现有的视觉或文本基础模型应用于电影理解效果有限,考虑到电影内容与用于训练这些模型的网络爬取图像和文本之间存在大的领域差距。

为了解决这些挑战,我们提出了一个新颖模型,在从数千部电影中自动识别的超过500万个场景上训练,包含超过4500万帧。我们的模型不需要任何手动标注,仅依赖于常见的电影级别信息(类型、剧情简介等)。

降低长视频理解的模型复杂性

在某中心视频,我们正在开发最先进的AI模型用于电影内容理解,以促进各种下游用例。实现这一目标的关键技术问题之一是有效建模复杂的时空依赖关系,特别是在长视频如电影和电视节目中。

最近提出的结构化状态空间序列(S4)模型以其线性复杂度在这个领域提供了有希望的方向;然而,我们经验证明,像S4模型那样平等对待所有图像标记可能会不利影响模型的效率和准确性。

为了解决这一挑战,我们提出了一个新颖的选择性S4(即S5)模型,它采用轻量级掩码生成器自适应选择信息丰富的图像标记,从而更有效地建模视频中的长期时空依赖关系。

使用强化学习进行多模态模型的动态推理

支持在多数据模态上运行的Transformer模型以及大规模预训练方法的可用性,已经在联合图像语言模型方面取得了显著进展。然而,这些模型计算成本高,因此运行时效率低,使其难以应用于某中心视频的大型目录。

为了解决这一挑战,我们提出了一个模型,通过动态跳过多模态网络的层、从语言主干、图像主干或两者中修剪输入标记,以及融合来自独立主干的标记来节省计算,这些操作都基于输入的图像-文本对进行条件化。

提高图像协调模型的标签效率

图像协调是更广泛的图像合成问题的重要组成部分,其中通过从一个图像中提取前景区域并将其以照片般真实的方式转移到另一个图像来创建新图像。

图像协调的主要技术挑战是从源图像提取的前景与目标图像背景之间的外观不匹配。图像协调旨在调整前景的外观,使其与背景兼容。

为了解决这一挑战,我们引入了一种新颖的预训练图像协调模型方法LEMaRT,它通过模拟图像协调模型预期要消除的缺陷类型来自动生成训练数据。

使用我们的LEMaRT方法预训练我们的SwinIH模型,在图像协调方面达到了新的最先进水平,同时具有标签效率,即与现有方法相比,微调消耗的标注数据更少。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

http://www.hskmm.com/?act=detail&tid=32355

相关文章:

  • 27 LCA模拟赛3T3 三等分的数组 题解
  • 26 LCA模拟赛3T2 连边 题解
  • 28 S2模拟赛T2 开会council 题解
  • 25 LCA模拟赛3T1 ROI 2012马赛克 题解
  • 实验记录2025/10/14
  • 个人微信开发框架
  • 投资指标技术分析
  • linux源码编译python
  • uni-app x开发商城系统,Swiper 轮播图
  • 昂瑞微OM6651A:国产车规级蓝牙芯片的破局者
  • 2025年中央空调/锅炉房/机房运维服务厂家最新权威推荐榜:专业托管与维修外包一体化解决方案精选
  • 【终极解决方案】api-ms-win-core-path-l1-1-0.dll 缺失?Win7/Win10/Win11完整修复教程
  • 2025 年最新推荐分切机实力厂家权威榜单:覆盖全自动高速、铝箔、薄膜、高精度等机型,为软包装企业精选优质设备
  • 打破应用跳转流失困局,提升推广链接转化率
  • 性能测试进阶秘籍:如何用JMeter分布式压测挖掘系统极限潜
  • Codeforces Round 1058 (Div. 2) A~E
  • 2025 年生料带厂家最新推荐排行榜:解析优质品牌优势,涵盖新型、彩色、液态等多类型生料带厂家企业推荐
  • openresty开发lua-resty-openssl之对称加密解密 - liuxm
  • 哈希乱搞:CF1418G Three Occurrences
  • 2025 年废旧轮胎裂解加热生产厂家最新推荐榜单:优质企业专利技术、产能规模与口碑实力全景解析锂化工焚烧炉/氟化热风系统/煤化工热风炉厂家推荐
  • 悲伤 自卑 乖戾 独自哭泣 陪伴空虚 kill my memory 让我将痛苦全忘记
  • 日志 | 2025.10
  • 工程师的 “指尖实验室”!正点原子 LT1 电桥镊子深度测评:同价位竞品谁能打?
  • 【ACM出版|EI检索稳定】2025年AI驱动下:业务转型和数据科学创新国际学术会议(ICBTDS 2025)
  • 破解跨域监控难题:国标GB28181算法算力平台EasyGBS视频调阅技术在跨域安防监控中的核心应用
  • 2025 年电缆桥架源头厂家最新推荐排行榜:聚焦优质供应商核心竞争力,助力工程采购精准选型
  • 2025 年厂房出售公司服务推荐排行榜:珠三角/广州/深圳/东莞/佛山/珠海等城市优质厂房出售公司全面测评解析
  • 构建智能视觉中枢:国标GB28181算法算力平台EasyGBS的全域感知与播放方案
  • 别再乱排查了!Kafka 消息积压、重复、丢失,根源基本都是 Rebalance!
  • 2025年交通杯-爆破题wp