当前位置：首页 > news >正文

Qwen 发布高精度实时音视频同传模型；AirPods 实时翻译功能新增中文丨日报

news 2025/9/25 11:40:17

开发者朋友们大家好：

这里是 「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@Jerry fong，@鲍勃

01有话题的技术

1、Google 发布 Gemini 2.5 Flash Native Audio 模型

Google 发布了最新的 Gemini 2.5 Flash Native Audio 模型（正式名称 gemini-2.5-flash-native-audio-preview-09-2025），现已在 AI Studio 上开放预览。该版本重点提升语音交互的自然度与可靠性，为构建更强大的语音 Agent 带来显著改进。

在功能调用方面，新模型的可靠性提升了两倍；在对话体验上，则强化了主动音频处理能力，能够自动忽略与语境无关的闲聊，更好地理解自然停顿和用户中断。

此外，Google 计划在下周引入类似于 Gemini 2.5 Flash 与 Pro 的「思考」功能。对于需要深入推理的复杂任务，开发者将可设定「思考预算」，让模型有更充足的时间进行处理，并以文本摘要的形式返回其思考过程。

相关链接：

https://ai.google.dev/gemini-api/docs/live

(@Google Dev)

2、阿里开源「Qwen3Guard」：119 种语言 AI 安全审核模型

阿里近日宣布开源其基于 Qwen3 构建的安全审核模型系列 Qwen3Guard，专为全球范围内的实时 AI 安全设计。该模型系列支持** 119 种语言和方言**，并提供** 0.6B、4B 和 8B **三种不同规模，以适应多样化的应用需求。

Qwen3Guard 包含两个主要版本：Qwen3Guard-Stream 专注于提供低延迟、实时流式检测能力；而 Qwen3Guard-Gen 则具备强大的全上下文安全分析能力，是强化学习奖励建模的理想选择。

该系列模型采用三级风险分类体系，将内容划分为安全、有争议和不安全三类。在多项安全基准测试中，Qwen3Guard 在英语、中文及更多语言上均表现领先。所有模型均已根据** Apache 2.0 许可证**开源。

相关链接：

https://qwen.ai/blog?id=f0bbad0677edf58ba93d80a1e12ce458f7a80548&from=research.research-list

https://huggingface.co/collections/Qwen/qwen3guard-68d2729abbfae4716f3343a1

（@通义千问）

3、Qwen 发布「Qwen3-LiveTranslate-Flash」：高精度实时音视频同传

Qwen 团队近日发布了其最新模型 Qwen3-LiveTranslate-Flash，这是一款基于大语言模型的高精度、高响应、高鲁棒性的多语言实时音视频同传模型。

该模型依托 Qwen3-Omni 强大的基座能力，并融合了海量的多模态数据及百万小时的音视频数据训练，最终实现了对** 18 种语言**的离线和实时音视频翻译能力，为跨语言交流提供了强大的技术支持。

目前，Qwen3-LiveTranslate-Flash 已在 Hugging Face 上提供演示版本供用户体验，其 API 也已同步上线阿里云百炼平台，开发者可即刻调用。

相关链接：

https://qwen.ai/blog?id=4266edf7f3718f2d3fda098b3f4c48f3573215d0&from=home.latest-research-list

https://help.aliyun.com/zh/model-studio/qwen3-livetranslate-flash-realtime

https://huggingface.co/spaces/Qwen/Qwen3-Livetranslate-Demo

（@通义千问）

02 有亮点的产品

1、Suno 发布 v5 音乐模型

Suno 发布了 v5 音乐模型，这是被描述为「世界最佳音乐模型」的新版本。该模型已面向 Pro 和 Premier 订阅用户推出，提供更沉浸式的音频体验、更真实的人声以及无与伦比的创意控制能力。

相关链接：

https://x.com/SunoMusic/status/1970583230807167300

2、苹果 iOS 26.1 Beta 1 为 AirPods 实时翻译功能新增中文支持

苹果公司在其 iOS 26.1 Beta 1 版本中为 AirPods 实时翻译功能带来了重要更新，新增了包括简体中文、繁体中文、日语、韩语和意大利语在内的多种语言支持。

这项实时翻译功能利用了 iPhone 的苹果 AI 技术，旨在打破语言障碍，让使用不同语言的用户能够进行无缝、直接的跨语言交流。此次更新极大地拓展了该功能的应用场景，为全球更多用户提供了便捷的实时翻译体验。

（@IOS 新知）

03有态度的观点

1、YouTube CEO：AI 是「下一次大爆炸」

据 Wired 报道，YouTube 在成立 20 周年之际宣布全面拥抱人工智能技术，推出多项面向创作者的 AI 功能。

官方表示，这些工具将帮助用户通过提示词生成视频内容，并可自动为播客音频生成匹配的视觉画面。

YouTube CEO Neal Mohan 在接受采访时回顾了平台的成长历程，并强调 AI 是延续「让更多人发声」这一核心使命的最新技术手段。

当 YouTube 诞生时，技术让更多人能够被听到；如今 AI 也是同样的原则 —— 用技术来让创作更普惠。

据悉，部分新功能基于 Google DeepMind 的 Veo 3 技术，支持即时生成复杂场景视频，例如「在月球上的 100 位印尼舞者」。

平台将对 AI 生成内容进行标注，但目前没有提供过滤选项。

Mohan 认为，AI 视频的价值取决于创作者的原创性和创意，而非生成比例。

(@APPSO)

阅读更多 Voice Agent 学习笔记：了解最懂 AI 语音的头脑都在思考什么

写在最后：

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

查看全文

http://www.hskmm.com/?act=detail&tid=16755

vivo 浏览器福利体系架构演进之路

2024JCR最新完整版期刊名单！【附带21-23年完整版表格】

ESP8266+CH340+SG90舵机远程控制开关

【ACM出版、连续三届EI检索】第四届人工智能与智能信息处理国际学术会议（AIIIP 2025）

08_多线程编程

VisionPro学习笔记- PMAlignTOOL

FeignClient提示No subject alternative DNS name matching配置SSL

【组合数学基础9】Catalan数（卡特兰数）笔记

【IEEE出版】第二届数据挖掘与智能计算国际学术会议（ICDM 2025）

第五届IEEE能源工程与电力系统国际学术会议（IEEE-EEPS 2025）

PS字体处理

Gitee DevOps：国产研发效能平台的破局之道

开发实用软件

代码随想录算法训练营第八天 | leetcode 344 541 卡特54

626. 换座位

时序大模型/时序小模型

Gitee PPM：数据驱动的软件工厂项目管理新范式

实用指南：《前端学习总结：GitLab、状态管理、组件库与 Umi.js》

C#中，EXCEL与表列顺序完全一致情况的导入处理（BeginBinaryImport）

Gitee PPM：数据驱动的DevSecOps项目管理新范式

acme.sh：强大的ACME协议Shell脚本，支持多DNS API

P9545 [湖北省选模拟 2023] 环山危路 / road 题解

探秘圆周率 π：圆周率计算在线工具

以史为鉴【长期置顶】

java21学习笔记-未命名的模式和变量 - 指南

达梦数据库DM-查询指定模式下表的大小

01有话题的技术

02 有亮点的产品

03有态度的观点

相关文章：