当前位置：首页 > news >正文

深入解析：港大和字节携手打造WorldWeaver：以统一建模方案整合感知条件，为长视频生成领域带来质量与一致性双重飞跃。

news 2025/10/25 21:35:06

深入解析：港大和字节携手打造WorldWeaver：以统一建模方案整合感知条件，为长视频生成领域带来质量与一致性双重飞跃。

生成视频建模虽有进展，但长序列结构与时间一致性保障仍是难题。现有依赖 RGB 信号的方法，会使物体结构和运动在长时间累积误差。为此港大和字节提出了一个长视频生成框架 WorldWeaver，它在一个统一长时域建模方案中联合建模 RGB 帧和感知条件。该训练框架有三大优势：联合预测增强时间一致性与运动动态；利用深度线索构建记忆库提升生成质量；采用分段噪声调度减轻漂移、降低成本。经大量实验验证，WorldWeaver 能减少时间漂移、提高生成视频保真度。其核心贡献如下：

系统探索基于图像的感知条件（如深度和光流）作为辅助信号，对增强长视界视频生成的作用。
提出统一框架，将感知条件与记忆机制结合，实现稳健的长视界视频预测。
在不同生成模型和数据集（涵盖通用和机器人操作领域）广泛验证，凸显作为可扩展世界模型基础的潜力。

WorldWeaver 与现有方法在长视域视频生成方面的比较。与其他办法 (b) 相比，WorldWeaver (a) 在长视域视频生成中建立了卓越的时间一致性和运动质量。

论文介绍

论文名：WorldWeaver：借助丰富的感知生成长视界视频世界

生成视频建模已取得重大进展，但如何确保长序列的结构和时间一致性仍然是一项挑战。目前的方法主要依赖于 RGB 信号，这会导致物体结构和运动在长时间内累积误差。为了解决这些障碍，我们引入了 WorldWeaver，这是一个强大的长视频生成框架，它在一个统一的长时域建模方案中联合建模 RGB 帧和感知条件。我们的训练框架具有三大关键优势。首先，通过从统一的表示中联合预测感知条件和颜色信息，它显著增强了时间一致性和运动动态。其次，通过利用深度线索（我们观察到深度线索比 RGB 更能抵抗漂移），我们构建了一个能够保留更清晰的上下文信息的记忆库，从而提升了长时域视频生成的质量。第三，我们采用分段噪声调度来训练预测组，这进一步减轻了漂移并降低了计算成本。在基于扩散和整流流的模型上进行的大量实验证明了 WorldWeaver 在减少时间漂移和提高生成视频保真度方面的有效性。

方法概述

给定一个输入视频，RGB、深度和光流信号通过 3D VAE 编码成一个联合潜在表征。这些潜在表征被拆分成用于扩散变换器的记忆库和预测组。记忆库存储历史帧，并被排除在损失计算之外；短期记忆保留少量完全去噪的帧以获取精细细节，而长期记忆则保持深度线索无噪声，并在 RGB 信息中添加低级噪声。在训练期间，根据噪声调度器曲线，预测组被分配不同的噪声级别，与推理期间使用的噪声调度保持一致。