当前位置：首页 > news >正文

李飞飞世界模型 RTFM：单个 H100 GPU 跑出实时 3D 宇宙；PaddleOCR-VL：0.9B 多模态文档解析｜日报

news 2025/10/18 9:45:42

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@Jerry fong，@鲍勃

01 有话题的技术

1、百度 PaddleOCR-VL 多模态文档解析方案发布，0.9B 参数问鼎 SOTA

PaddleOCR-VL 是一款极致轻量高效的文档解析模型，专为文档中的元素识别设计。它的核心模型 PaddleOCR-VL-0.9B 集成了高效的视觉编码器和强大的语言模型，能够精准识别图片中的文本、手写汉字、表格、公式和图表等复杂元素。PaddleOCR-VL 覆盖多达 109 种语言，无论是中文、英文等主流语言，还是小语种，都能实现轻松处理。与其他同类模型相比，PaddleOCR-VL 不仅识别效果更好，资源消耗也非常低，速度快，效率高。

在多个公开和内部测试中，PaddleOCR-VL 在整页文档解析和单个元素的识别方面都取得了业界领先的成绩，明显优于现有的其他方案。凭借这些优势，PaddleOCR-VL 非常适合在各种实际场景中部署使用。

开源地址：

https://github.com/PaddlePaddle/PaddleOCR

Demo 地址：

https://aistudio.baidu.com/application/detail/98365

（@飞桨 PaddlePaddle）

2、单块 GPU 上跑出实时 3D 宇宙，李飞飞世界模型新成果震撼问世

斯坦福大学教授李飞飞创业公司 World Labs 又推出了新成果。

就在今天，一个可以实时、持续运行并保持 3D 一致性的生成式世界模型 RTFM 问世了，并且该模型在单个 H100 GPU 上就能跑起来。

RTFM 的全称为「Real-Time Frame Model」，即实时帧模型。

根据官方介绍，RTFM 并不会显式地构建世界的 3D 表示。相反，它以一张或多张 2D 图像作为输入，直接生成同一场景在不同视角下的全新 2D 图像。

在技术上，RTFM 可以被视为一种学习型渲染器：它是一种端到端训练的自回归扩散 Transformer，基于大规模视频数据进行训练，最终仅通过观察训练集中的样本就学会了建模 3D 几何、反射、阴影等特征。

另外，RTFM 还可以用于从稀疏拍摄的照片中重建真实世界的场景。

World Labs 团队认为，生成式世界模型必然会对计算能力提出要求，甚至可能扩展到超出当今 LLM 的需求。但他们相信，生成式世界模型是未来渲染和空间智能领域至关重要的研究方向。

体验链接：

https://rtfm.worldlabs.ai/

（@机器之心）

3、Google 将推 Computer Agent

Google 正在准备发布内部代号为 Computer Agent（CUA）的 GeminiAgent 原型，该 Agent 可驱动浏览器并执行深度研究任务。该能力被描述为「与 OpenAI 的 Agent 几乎相同」，外界正密切关注两者之间的性能对比。相关的测试视频也已流出，画面展示了 Agent 在浏览器环境中进行自主操作。

02 有亮点的产品

1、Sora 2 更新：Pro 用户可用分镜板，视频时长上限提升至 25 秒

OpenAI 今日宣布，旗下视频生成模型 Sora 迎来两项重要更新：

Pro 用户现已可在网页版中使用「分镜板」功能；
所有用户在应用端与网页版均可生成最长 15 秒的视频，而 Pro 用户在网页版的时长上限则提升至 25 秒。

官方介绍称，分镜板功能可在创作界面中直接选择「storyboard」选项，帮助用户通过镜头切换与场景规划更直观地构建视频内容。部分用户反馈称，当前网页版的下载按钮存在异常，点击后无法正常导出视频文件。

(@APPSO)

2、Google AI Studio 上线统一 Playground

Google AI Studio 上线了新版统一 Playground，将 Gemini 文本、Imagen 图像、Veo 视频、TTS 语音、Live 实时 API 等全部模型能力集成到单一界面，用户无需切换页面即可连续进行实验。该界面被官方称为「one playground」，同步整合了 Chat、GenMedia、Live 三大板块，显著提升了模型查找与调用的效率。