当前位置: 首页 > news >正文

Qwen 发布高精度实时音视频同传模型;AirPods 实时翻译功能新增中文丨日报

 

image

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@Jerry fong,@鲍勃

01有话题的技术

1、Google 发布 Gemini 2.5 Flash Native Audio 模型

 

Google 发布了最新的 Gemini 2.5 Flash Native Audio 模型(正式名称 gemini-2.5-flash-native-audio-preview-09-2025),现已在 AI Studio 上开放预览。该版本重点提升语音交互的自然度与可靠性,为构建更强大的语音 Agent 带来显著改进。

 

在功能调用方面,新模型的可靠性提升了两倍;在对话体验上,则强化了主动音频处理能力,能够自动忽略与语境无关的闲聊,更好地理解自然停顿和用户中断。

 

此外,Google 计划在下周引入类似于 Gemini 2.5 Flash 与 Pro 的「思考」功能。对于需要深入推理的复杂任务,开发者将可设定「思考预算」,让模型有更充足的时间进行处理,并以文本摘要的形式返回其思考过程。

 

相关链接:

 

https://ai.google.dev/gemini-api/docs/live

 

(@Google Dev)

 

2、阿里开源「Qwen3Guard」:119 种语言 AI 安全审核模型

 

image

 

 

阿里近日宣布开源其基于 Qwen3 构建的安全审核模型系列 Qwen3Guard,专为全球范围内的实时 AI 安全设计。该模型系列支持** 119 种语言和方言**,并提供** 0.6B、4B 和 8B **三种不同规模,以适应多样化的应用需求。

 

Qwen3Guard 包含两个主要版本:Qwen3Guard-Stream 专注于提供低延迟、实时流式检测能力;而 Qwen3Guard-Gen 则具备强大的全上下文安全分析能力,是强化学习奖励建模的理想选择。

 

该系列模型采用三级风险分类体系,将内容划分为安全有争议不安全三类。在多项安全基准测试中,Qwen3Guard 在英语、中文及更多语言上均表现领先。所有模型均已根据** Apache 2.0 许可证**开源。

 

相关链接:

 

https://qwen.ai/blog?id=f0bbad0677edf58ba93d80a1e12ce458f7a80548&from=research.research-list

 

https://huggingface.co/collections/Qwen/qwen3guard-68d2729abbfae4716f3343a1

 

(@通义千问)

 

3、Qwen 发布「Qwen3-LiveTranslate-Flash」:高精度实时音视频同传

 

image

 

 

image

 

 

Qwen 团队近日发布了其最新模型 Qwen3-LiveTranslate-Flash,这是一款基于大语言模型的高精度、高响应、高鲁棒性的多语言实时音视频同传模型。

 

该模型依托 Qwen3-Omni 强大的基座能力,并融合了海量的多模态数据及百万小时的音视频数据训练,最终实现了对** 18 种语言**的离线和实时音视频翻译能力,为跨语言交流提供了强大的技术支持。

 

目前,Qwen3-LiveTranslate-Flash 已在 Hugging Face 上提供演示版本供用户体验,其 API 也已同步上线阿里云百炼平台,开发者可即刻调用。

 

相关链接:

 

https://qwen.ai/blog?id=4266edf7f3718f2d3fda098b3f4c48f3573215d0&from=home.latest-research-list

 

https://help.aliyun.com/zh/model-studio/qwen3-livetranslate-flash-realtime

 

https://huggingface.co/spaces/Qwen/Qwen3-Livetranslate-Demo

 

(@通义千问)

02 有亮点的产品

1、Suno 发布 v5 音乐模型

 

Suno 发布了 v5 音乐模型,这是被描述为「世界最佳音乐模型」的新版本。该模型已面向 Pro 和 Premier 订阅用户推出,提供更沉浸式的音频体验、更真实的人声以及无与伦比的创意控制能力。

 

相关链接:

 

https://x.com/SunoMusic/status/1970583230807167300

 

2、苹果 iOS 26.1 Beta 1 为 AirPods 实时翻译功能新增中文支持

 

苹果公司在其 iOS 26.1 Beta 1 版本中为 AirPods 实时翻译功能带来了重要更新,新增了包括简体中文、繁体中文、日语、韩语和意大利语在内的多种语言支持。

 

这项实时翻译功能利用了 iPhone 的苹果 AI 技术,旨在打破语言障碍,让使用不同语言的用户能够进行无缝、直接的跨语言交流。此次更新极大地拓展了该功能的应用场景,为全球更多用户提供了便捷的实时翻译体验。

 

(@IOS 新知)

03有态度的观点

1、YouTube CEO:AI 是「下一次大爆炸」

 

据 Wired 报道,YouTube 在成立 20 周年之际宣布全面拥抱人工智能技术,推出多项面向创作者的 AI 功能。

 

官方表示,这些工具将帮助用户通过提示词生成视频内容,并可自动为播客音频生成匹配的视觉画面。

 

YouTube CEO Neal Mohan 在接受采访时回顾了平台的成长历程,并强调 AI 是延续「让更多人发声」这一核心使命的最新技术手段。

 

当 YouTube 诞生时,技术让更多人能够被听到;如今 AI 也是同样的原则 —— 用技术来让创作更普惠。

 

据悉,部分新功能基于 Google DeepMind 的 Veo 3 技术,支持即时生成复杂场景视频,例如「在月球上的 100 位印尼舞者」。

 

平台将对 AI 生成内容进行标注,但目前没有提供过滤选项。

 

Mohan 认为,AI 视频的价值取决于创作者的原创性和创意,而非生成比例。

 

(@APPSO)

 

image

 

image

 

 

 

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

 

写在最后:

 

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

image

 

 

素材来源官方媒体/网络新闻

http://www.hskmm.com/?act=detail&tid=16755

相关文章:

  • vivo 浏览器福利体系架构演进之路
  • 2024JCR最新完整版期刊名单!【附带21-23年完整版表格】
  • ESP8266+CH340+SG90舵机远程控制开关
  • 【ACM出版、连续三届EI检索】第四届人工智能与智能信息处理国际学术会议(AIIIP 2025)
  • 08_多线程编程
  • VisionPro学习笔记- PMAlignTOOL
  • FeignClient提示No subject alternative DNS name matching配置SSL
  • 【组合数学基础9】Catalan数(卡特兰数)笔记
  • 详细介绍:npm玩转技巧
  • 软件构造的基本原理 1章
  • 【2025-09-23】性格问题
  • mvnd 安装和配置
  • 【IEEE出版】第二届数据挖掘与智能计算国际学术会议(ICDM 2025)
  • 第五届IEEE能源工程与电力系统国际学术会议(IEEE-EEPS 2025)
  • PS字体处理
  • Gitee DevOps:国产研发效能平台的破局之道
  • 开发实用软件
  • 代码随想录算法训练营第八天 | leetcode 344 541 卡特54
  • 626. 换座位
  • 时序大模型/时序小模型
  • Gitee PPM:数据驱动的软件工厂项目管理新范式
  • 实用指南:《前端学习总结:GitLab、状态管理、组件库与 Umi.js》
  • C#中,EXCEL与表列顺序完全一致情况的导入处理(BeginBinaryImport)
  • Gitee PPM:数据驱动的DevSecOps项目管理新范式
  • acme.sh:强大的ACME协议Shell脚本,支持多DNS API
  • P9545 [湖北省选模拟 2023] 环山危路 / road 题解
  • 探秘圆周率 π:圆周率计算在线工具
  • 以史为鉴【长期置顶】
  • java21学习笔记-未命名的模式和变量 - 指南
  • 达梦数据库DM-查询指定模式下表的大小