开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@Jerry fong,@鲍勃
01 有话题的技术
1、百度 PaddleOCR-VL 多模态文档解析方案发布,0.9B 参数问鼎 SOTA
PaddleOCR-VL 是一款极致轻量高效的文档解析模型,专为文档中的元素识别设计。它的核心模型 PaddleOCR-VL-0.9B 集成了高效的视觉编码器和强大的语言模型,能够精准识别图片中的文本、手写汉字、表格、公式和图表等复杂元素。PaddleOCR-VL 覆盖多达 109 种语言,无论是中文、英文等主流语言,还是小语种,都能实现轻松处理。与其他同类模型相比,PaddleOCR-VL 不仅识别效果更好,资源消耗也非常低,速度快,效率高。
在多个公开和内部测试中,PaddleOCR-VL 在整页文档解析和单个元素的识别方面都取得了业界领先的成绩,明显优于现有的其他方案。凭借这些优势,PaddleOCR-VL 非常适合在各种实际场景中部署使用。
开源地址:
https://github.com/PaddlePaddle/PaddleOCR
Demo 地址:
https://aistudio.baidu.com/application/detail/98365
(@飞桨 PaddlePaddle)
2、单块 GPU 上跑出实时 3D 宇宙,李飞飞世界模型新成果震撼问世
斯坦福大学教授李飞飞创业公司 World Labs 又推出了新成果。
就在今天,一个可以实时、持续运行并保持 3D 一致性的生成式世界模型 RTFM 问世了,并且该模型在单个 H100 GPU 上就能跑起来。
RTFM 的全称为「Real-Time Frame Model」,即实时帧模型。
根据官方介绍,RTFM 并不会显式地构建世界的 3D 表示。相反,它以一张或多张 2D 图像作为输入,直接生成同一场景在不同视角下的全新 2D 图像。
在技术上,RTFM 可以被视为一种学习型渲染器:它是一种端到端训练的自回归扩散 Transformer,基于大规模视频数据进行训练,最终仅通过观察训练集中的样本就学会了建模 3D 几何、反射、阴影等特征。
另外,RTFM 还可以用于从稀疏拍摄的照片中重建真实世界的场景。
World Labs 团队认为,生成式世界模型必然会对计算能力提出要求,甚至可能扩展到超出当今 LLM 的需求。但他们相信,生成式世界模型是未来渲染和空间智能领域至关重要的研究方向。
体验链接:
https://rtfm.worldlabs.ai/
(@机器之心)
3、Google 将推 Computer Agent
Google 正在准备发布内部代号为 Computer Agent(CUA) 的 GeminiAgent 原型,该 Agent 可驱动浏览器并执行深度研究任务。该能力被描述为「与 OpenAI 的 Agent 几乎相同」,外界正密切关注两者之间的性能对比。相关的测试视频也已流出,画面展示了 Agent 在浏览器环境中进行自主操作。
相关链接:
https://x.com/testingcatalog/status/1978587586638569615
(@testingcatalog@X)
02 有亮点的产品
1、Sora 2 更新:Pro 用户可用分镜板,视频时长上限提升至 25 秒
OpenAI 今日宣布,旗下视频生成模型 Sora 迎来两项重要更新:
-
Pro 用户现已可在网页版中使用「分镜板」功能;
-
所有用户在应用端与网页版均可生成最长 15 秒的视频,而 Pro 用户在网页版的时长上限则提升至 25 秒。
官方介绍称,分镜板功能可在创作界面中直接选择「storyboard」选项,帮助用户通过镜头切换与场景规划更直观地构建视频内容。部分用户反馈称,当前网页版的下载按钮存在异常,点击后无法正常导出视频文件。
(@APPSO)
2、Google AI Studio 上线统一 Playground
Google AI Studio 上线了新版统一 Playground,将 Gemini 文本、Imagen 图像、Veo 视频、TTS 语音、Live 实时 API 等全部模型能力集成到单一界面,用户无需切换页面即可连续进行实验。该界面被官方称为「one playground」,同步整合了 Chat、GenMedia、Live 三大板块,显著提升了模型查找与调用的效率。
相关链接:
https://x.com/OfficialLoganK/status/1978862398506201560
(@橘鸭 Juya)
03 Real-Time AI Demo:
无需输入提示词,滚动鼠标实时编辑图片元素
来自@poetengineer__@X:通过悬停并滚动鼠标滚轮,无需提示即可更改照片中的任何内容(脸部、衣服、设备、天空、周围环境等)。
04 有态度的观点
1、硅谷精神之父:AI 的发展会让人类更聪明、更优秀
据新浪财经报道,昨天,在 2025 可持续全球领导者大会上,《连线》杂志创始主编、《2049》作者凯文·凯利与上海交通大学上海高级金融学院教授朱宁展开对话。
凯利表示,AI 在教育领域的应用前景十分乐观,不仅能够实现教育资源的均衡化,还能让学习过程更加高效,每个孩子都能以自己的方式和速度学习。
凯利指出,AI 最大的惊喜在于思维能力的培养与变化,尤其是在语言翻译和空间智能等场景的突破。
他强调 「AI 大语言模型比任何人类知道的都要多,但它们的思考方式与人类不同」,通过神经网络和深度学习,AI 能以全新的路径解决问题。
他还提到,中国在 AI 应用方面展现出极高效率,「或许未来的超级网络 AI 会在中国出现,这是一个非常好的机会」。
对于外界担忧的「AI 是否会取代人类」问题,凯利认为,AI 的发展将不断推动人类变得更聪明、更优秀,关键在于赋予 AI 伦理与道德感。
他同时强调,长期来看,AI 将帮助人类加速绿色文化的发展,解决一些人类自身难以解决的问题。
(@APPSO)
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻