开发者朋友们大家好:
这里是 「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@Jerry fong,@鲍勃
01有话题的技术
1、Google 发布 Gemini 2.5 Flash Native Audio 模型
Google 发布了最新的 Gemini 2.5 Flash Native Audio 模型(正式名称 gemini-2.5-flash-native-audio-preview-09-2025),现已在 AI Studio 上开放预览。该版本重点提升语音交互的自然度与可靠性,为构建更强大的语音 Agent 带来显著改进。
在功能调用方面,新模型的可靠性提升了两倍;在对话体验上,则强化了主动音频处理能力,能够自动忽略与语境无关的闲聊,更好地理解自然停顿和用户中断。
此外,Google 计划在下周引入类似于 Gemini 2.5 Flash 与 Pro 的「思考」功能。对于需要深入推理的复杂任务,开发者将可设定「思考预算」,让模型有更充足的时间进行处理,并以文本摘要的形式返回其思考过程。
相关链接:
https://ai.google.dev/gemini-api/docs/live
(@Google Dev)
2、阿里开源「Qwen3Guard」:119 种语言 AI 安全审核模型
阿里近日宣布开源其基于 Qwen3 构建的安全审核模型系列 Qwen3Guard,专为全球范围内的实时 AI 安全设计。该模型系列支持** 119 种语言和方言**,并提供** 0.6B、4B 和 8B **三种不同规模,以适应多样化的应用需求。
Qwen3Guard 包含两个主要版本:Qwen3Guard-Stream 专注于提供低延迟、实时流式检测能力;而 Qwen3Guard-Gen 则具备强大的全上下文安全分析能力,是强化学习奖励建模的理想选择。
该系列模型采用三级风险分类体系,将内容划分为安全、有争议和不安全三类。在多项安全基准测试中,Qwen3Guard 在英语、中文及更多语言上均表现领先。所有模型均已根据** Apache 2.0 许可证**开源。
相关链接:
https://qwen.ai/blog?id=f0bbad0677edf58ba93d80a1e12ce458f7a80548&from=research.research-list
https://huggingface.co/collections/Qwen/qwen3guard-68d2729abbfae4716f3343a1
(@通义千问)
3、Qwen 发布「Qwen3-LiveTranslate-Flash」:高精度实时音视频同传
Qwen 团队近日发布了其最新模型 Qwen3-LiveTranslate-Flash,这是一款基于大语言模型的高精度、高响应、高鲁棒性的多语言实时音视频同传模型。
该模型依托 Qwen3-Omni 强大的基座能力,并融合了海量的多模态数据及百万小时的音视频数据训练,最终实现了对** 18 种语言**的离线和实时音视频翻译能力,为跨语言交流提供了强大的技术支持。
目前,Qwen3-LiveTranslate-Flash 已在 Hugging Face 上提供演示版本供用户体验,其 API 也已同步上线阿里云百炼平台,开发者可即刻调用。
相关链接:
https://qwen.ai/blog?id=4266edf7f3718f2d3fda098b3f4c48f3573215d0&from=home.latest-research-list
https://help.aliyun.com/zh/model-studio/qwen3-livetranslate-flash-realtime
https://huggingface.co/spaces/Qwen/Qwen3-Livetranslate-Demo
(@通义千问)
02 有亮点的产品
1、Suno 发布 v5 音乐模型
Suno 发布了 v5 音乐模型,这是被描述为「世界最佳音乐模型」的新版本。该模型已面向 Pro 和 Premier 订阅用户推出,提供更沉浸式的音频体验、更真实的人声以及无与伦比的创意控制能力。
相关链接:
https://x.com/SunoMusic/status/1970583230807167300
2、苹果 iOS 26.1 Beta 1 为 AirPods 实时翻译功能新增中文支持
苹果公司在其 iOS 26.1 Beta 1 版本中为 AirPods 实时翻译功能带来了重要更新,新增了包括简体中文、繁体中文、日语、韩语和意大利语在内的多种语言支持。
这项实时翻译功能利用了 iPhone 的苹果 AI 技术,旨在打破语言障碍,让使用不同语言的用户能够进行无缝、直接的跨语言交流。此次更新极大地拓展了该功能的应用场景,为全球更多用户提供了便捷的实时翻译体验。
(@IOS 新知)
03有态度的观点
1、YouTube CEO:AI 是「下一次大爆炸」
据 Wired 报道,YouTube 在成立 20 周年之际宣布全面拥抱人工智能技术,推出多项面向创作者的 AI 功能。
官方表示,这些工具将帮助用户通过提示词生成视频内容,并可自动为播客音频生成匹配的视觉画面。
YouTube CEO Neal Mohan 在接受采访时回顾了平台的成长历程,并强调 AI 是延续「让更多人发声」这一核心使命的最新技术手段。
当 YouTube 诞生时,技术让更多人能够被听到;如今 AI 也是同样的原则 —— 用技术来让创作更普惠。
据悉,部分新功能基于 Google DeepMind 的 Veo 3 技术,支持即时生成复杂场景视频,例如「在月球上的 100 位印尼舞者」。
平台将对 AI 生成内容进行标注,但目前没有提供过滤选项。
Mohan 认为,AI 视频的价值取决于创作者的原创性和创意,而非生成比例。
(@APPSO)
阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻