当前位置: 首页 > news >正文

李飞飞世界模型 RTFM:单个 H100 GPU 跑出实时 3D 宇宙;PaddleOCR-VL:0.9B 多模态文档解析|日报

 

image

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@Jerry fong,@鲍勃

01 有话题的技术

1、百度 PaddleOCR-VL 多模态文档解析方案发布,0.9B 参数问鼎 SOTA

 

image

 

 

PaddleOCR-VL 是一款极致轻量高效的文档解析模型,专为文档中的元素识别设计。它的核心模型 PaddleOCR-VL-0.9B 集成了高效的视觉编码器和强大的语言模型,能够精准识别图片中的文本、手写汉字、表格、公式和图表等复杂元素。PaddleOCR-VL 覆盖多达 109 种语言,无论是中文、英文等主流语言,还是小语种,都能实现轻松处理。与其他同类模型相比,PaddleOCR-VL 不仅识别效果更好,资源消耗也非常低,速度快,效率高。

 

在多个公开和内部测试中,PaddleOCR-VL 在整页文档解析和单个元素的识别方面都取得了业界领先的成绩,明显优于现有的其他方案。凭借这些优势,PaddleOCR-VL 非常适合在各种实际场景中部署使用。

 

开源地址:

 

https://github.com/PaddlePaddle/PaddleOCR

 

Demo 地址:

 

https://aistudio.baidu.com/application/detail/98365

 

(@飞桨 PaddlePaddle)

 

2、单块 GPU 上跑出实时 3D 宇宙,李飞飞世界模型新成果震撼问世

 

斯坦福大学教授李飞飞创业公司 World Labs 又推出了新成果。

 

就在今天,一个可以实时、持续运行并保持 3D 一致性的生成式世界模型 RTFM 问世了,并且该模型在单个 H100 GPU 上就能跑起来。

 

RTFM 的全称为「Real-Time Frame Model」,即实时帧模型。

 

根据官方介绍,RTFM 并不会显式地构建世界的 3D 表示。相反,它以一张或多张 2D 图像作为输入,直接生成同一场景在不同视角下的全新 2D 图像。

 

在技术上,RTFM 可以被视为一种学习型渲染器:它是一种端到端训练的自回归扩散 Transformer,基于大规模视频数据进行训练,最终仅通过观察训练集中的样本就学会了建模 3D 几何、反射、阴影等特征。

 

另外,RTFM 还可以用于从稀疏拍摄的照片中重建真实世界的场景。

 

World Labs 团队认为,生成式世界模型必然会对计算能力提出要求,甚至可能扩展到超出当今 LLM 的需求。但他们相信,生成式世界模型是未来渲染和空间智能领域至关重要的研究方向。

 

体验链接:

 

https://rtfm.worldlabs.ai/

 

(@机器之心)

 

3、Google 将推 Computer Agent

 

Google 正在准备发布内部代号为 Computer Agent(CUA) 的 GeminiAgent 原型,该 Agent 可驱动浏览器并执行深度研究任务。该能力被描述为「与 OpenAI 的 Agent 几乎相同」,外界正密切关注两者之间的性能对比。相关的测试视频也已流出,画面展示了 Agent 在浏览器环境中进行自主操作。

 

相关链接:

 

https://x.com/testingcatalog/status/1978587586638569615

 

(@testingcatalog@X)

02 有亮点的产品

1、Sora 2 更新:Pro 用户可用分镜板,视频时长上限提升至 25 秒

OpenAI 今日宣布,旗下视频生成模型 Sora 迎来两项重要更新:

 

  • Pro 用户现已可在网页版中使用「分镜板」功能;

  • 所有用户在应用端与网页版均可生成最长 15 秒的视频,而 Pro 用户在网页版的时长上限则提升至 25 秒。

 

官方介绍称,分镜板功能可在创作界面中直接选择「storyboard」选项,帮助用户通过镜头切换与场景规划更直观地构建视频内容。部分用户反馈称,当前网页版的下载按钮存在异常,点击后无法正常导出视频文件。

 

(@APPSO)

 

2、Google AI Studio 上线统一 Playground

 

image

 

 

Google AI Studio 上线了新版统一 Playground,将 Gemini 文本、Imagen 图像、Veo 视频、TTS 语音、Live 实时 API 等全部模型能力集成到单一界面,用户无需切换页面即可连续进行实验。该界面被官方称为「one playground」,同步整合了 Chat、GenMedia、Live 三大板块,显著提升了模型查找与调用的效率。

 

相关链接:

 

https://x.com/OfficialLoganK/status/1978862398506201560

 

(@橘鸭 Juya)

03 Real-Time AI Demo:

无需输入提示词,滚动鼠标实时编辑图片元素

 

来自@poetengineer__@X:通过悬停并滚动鼠标滚轮,无需提示即可更改照片中的任何内容(脸部、衣服、设备、天空、周围环境等)。

04 有态度的观点

1、硅谷精神之父:AI 的发展会让人类更聪明、更优秀

 

image

 

 

据新浪财经报道,昨天,在 2025 可持续全球领导者大会上,《连线》杂志创始主编、《2049》作者凯文·凯利与上海交通大学上海高级金融学院教授朱宁展开对话。

 

凯利表示,AI 在教育领域的应用前景十分乐观,不仅能够实现教育资源的均衡化,还能让学习过程更加高效,每个孩子都能以自己的方式和速度学习。

 

凯利指出,AI 最大的惊喜在于思维能力的培养与变化,尤其是在语言翻译和空间智能等场景的突破。

 

他强调 「AI 大语言模型比任何人类知道的都要多,但它们的思考方式与人类不同」,通过神经网络和深度学习,AI 能以全新的路径解决问题。

 

他还提到,中国在 AI 应用方面展现出极高效率,「或许未来的超级网络 AI 会在中国出现,这是一个非常好的机会」。

 

对于外界担忧的「AI 是否会取代人类」问题,凯利认为,AI 的发展将不断推动人类变得更聪明、更优秀,关键在于赋予 AI 伦理与道德感。

 

他同时强调,长期来看,AI 将帮助人类加速绿色文化的发展,解决一些人类自身难以解决的问题。

 

(@APPSO)

 

image

 

image

 

 

写在最后:

 

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

image

 

 

素材来源官方媒体/网络新闻

http://www.hskmm.com/?act=detail&tid=33511

相关文章:

  • 2025 年陶瓷阀生产厂家最新推荐口碑榜:电动 / 气动 / 高温等多类型产品品质与用户反馈深度解析
  • 2025 年蝶阀厂家最新推荐:全金属硬碰硬 / 高压 / 美标 / 双偏心等类型蝶阀优质厂家榜单及选择指南
  • 实用指南:【论文阅读】Segment Anything
  • 2025 年最新推荐!刀闸阀生产厂家综合实力榜单出炉,涵盖陶瓷 / 国标 / 电动 / 气动 / 密封 / 手动 / 法兰 / 铸铁多类型产品
  • 2025 年最新推荐!选矿药剂生产厂家实力榜单,覆盖多矿石类型高效环保药剂品牌汇总石英长石 / 赤铁矿褐铁矿锂云母锂辉石 / 石墨煤矿的选矿药剂推荐
  • 2025 年最新推荐黄药厂家榜单:乙基 / 异丙基 / 异丁基 / 异戊基黄药及 38 号捕收剂等优质产品精选
  • 2025 年黑药生产厂家最新推荐榜单:丁铵丁钠等多型号黑药品牌综合实力解析与选购指南
  • 直播平台代码,pc端微信授权登录的两种实现方式 - 云豹科技
  • 比特币区块空间经济学深度解析
  • 直播系统源码,js对象根据路径修改值 - 云豹科技
  • 2025 年离心泵厂家最新推荐榜单:涵盖化工 / 卧式多级 / 不锈钢等多类型,帮企业选优质设备
  • 直播系统开发,vue拖拽元素指令 - 云豹科技
  • 2025 年托盘厂家最新推荐榜,聚焦企业技术实力与市场口碑深度解析,筛选优质品牌助力企业采购
  • C# Avalonia 16- Animation- FrameBasedAnimation
  • 01.Python自动获取小说工具
  • 2025 年换热器厂家最新推荐榜:聚焦不锈钢、钛、哈氏合金等多材质及列管式等多类型设备,精选优质厂商助力企业采购决策
  • 2025 年最新推荐砂浆厂家排行榜:聚焦多类型砂浆产品,助力采购方精准选优质供应商
  • 2025 年电缆桥架厂家最新推荐榜:涵盖不锈钢 / 铝合金 / 热镀锌等类型,精选高性能企业助力选购
  • h5直播源码,如何实现一个简易播放器? - 云豹科技
  • Docker中授权普通用户使用docker命令以及解决无权限访问/var/run/docker.sock错误
  • C# Avalonia 16- Animation- PathBasedAnimation
  • 2025年危险品运输公司权威推荐榜:安全高效,专业服务值得信赖!
  • 2025 年联轴器厂家最新推荐排行榜:聚焦万向、膜片、齿式等多类型产品,精选行业优质厂家
  • 2025 年换热器厂家最新推荐榜单:涵盖不锈钢钛哈氏合金等材质及列管式螺旋板等类型,为企业采购提供优质选择
  • 2025 年最新推荐!反应釜制造厂家榜单重磅发布,聚焦不锈钢钛合金哈氏合金等多类型设备优质厂商
  • 多模态、世界模型和主动智能丨Convo AIRTE2025
  • 2025年发电机组厂家推荐排行榜,柴油/燃气/船用/静音箱式/移动拖车/集装箱式/上柴/玉柴/潍柴/康明斯/沃尔沃/道依茨/帕金斯/MTU发电机组公司精选
  • 2025 防火隔断厂家最新推荐排行榜:甲级防火玻璃隔断厂家深度剖析,精选优质品牌助力采购决策
  • clickhouse数据库 数据插入 去重和覆盖
  • nacos客户端(接口调用者)如何感知被调用服务下线? (二)