当前位置: 首页 > news >正文

英伟达入资 11Labs,黄仁勋:语音 AI 带来情感、共情和联结;Qwen3-TTS-Flash:多语言,多音色,多方言丨日报

 

image

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@Jerry fong,@鲍勃

01 有话题的技术

1、英伟达投资ElevenLabs,黄仁勋:语音 AI 带来情感、共情和联结

 

NVIDIA 宣布,已对 AI 语音技术初创公司 ElevenLabs 进行战略投资。

 

关键亮点

 

  • 战略投资 AI 语音: NVIDIA 确认已投资 AI 语音技术公司 ElevenLabs,CEO Jensen Huang 与 ElevenLabs 联合创始人 Mati Staniszewski 进行了公开对话,强调了 ElevenLabs 在其数字声音传播中的重要性。

  • 技术与艺术的融合: Jensen Huang 评论称,ElevenLabs 的文本转语音(Text-to-Speech)技术已超越单纯的技术层面,达到了「艺术」的高度,并能够传递情感和同理心。

  • 美英科技联盟强化: 此次投资恰逢美英两国在 AI 和量子计算领域签署 420 亿美元技术协议,旨在加强两国在尖端科技领域的合作与研究。

  • NVIDIA 在英布局加速: 该投资是 NVIDIA 20 亿英镑对英国 AI 初创企业承诺的一部分,NVIDIA 还计划在英国投资高达 110 亿英镑建设「AI 工厂」,部署 120,000 块 GPU,以支持英国本土 AI 发展。

  • ElevenLabs 快速崛起: ElevenLabs 由前 Google 和 Palantir 员工创立于 2022 年,已成为 AI 语音领域的领导者,最新估值达到 66 亿美元。

 

ElevenLabs 是一家估值 66 亿美元的初创公司,其技术已广泛应用于游戏、媒体和无障碍工具等领域。NVIDIA 的投资细节未公开,但表明了双方的战略合作意向。

 

相关链接:

 

https://www.startuphub.ai/ai-news/funding-round/2025/nvidia-backs-ai-voice-pioneer-elevenlabs-amid-us-uk-lockstep-tech-alliance/

 

( @StartupHub.ai)

 

2、Qwen3-Omni 震撼发布:阿里开源首个端到端全模态 AI 大模型,性能直逼 GPT-4o

 

image

 

 

阿里巴巴 Qwen 团队近日震撼发布其最新一代 30B 参数「全模态 AI 大模型」Qwen3-Omni。这是全球首个真正端到端的开源多模态模型,能够同时处理文本、图像、音频、视频输入,并实时生成流式文本和自然语音输出。其性能在多项评测中已直逼 OpenAI 的 GPT-4o 和 Google 的 Gemini 2.5 Pro,为多模态 AI 交互树立了新标杆,并支持免费商用。

 

关键亮点

 

  • 「端到端」全模态能力: Qwen3-Omni 采用统一架构,直接处理文本(支持 119 种语言)、图像、音频(支持 19 种语言)和视频(最长 30 分钟)输入,并实时生成流式文本和语音输出(支持 10 种语言),彻底摆脱传统「拼接式」多模态模型的性能折衷和高延迟问题。

  • 性能比肩顶尖闭源模型: 在 36 个音频和音视频基准测试中,Qwen3-Omni 斩获 22 项 SOTA(State-Of-The-Art,最优性能),与 Gemini 2.5 Pro 比肩。其多语言翻译能力支持 28 种语言互译,噪声环境下语音识别的词错误率 (WER) 低于 8%。

  • Thinker-Talker 双核架构: 模型核心采用创新 Thinker-Talker 双核架构,无缝整合多模态理解 (Thinker 模块) 和实时生成 (Talker 模块)。Talker 模块实现低至 211 毫秒的首包延迟,接近人类对话的实时性。

  • 大规模开源与免费商用: Qwen3-Omni 基于 Apache 2.0 许可开源,提供三种 30B 参数模型变体:Qwen3-Omni-30B-A3B-Instruct(优化指令跟随)、Qwen3-Omni-30B-A3B-Thinking(增强复杂推理)和 Qwen3-Omni-30B-A3B-Captioner(低幻觉音频字幕生成),为开发者和企业提供免费使用和定制化能力。

  • 高效率与鲁棒性: 通过端到端联合优化训练,模型在处理长达 30 分钟视频、复杂噪声语音等场景下展现出强大鲁棒性和高效语义提取能力,同时在单模态任务上保持了与 Qwen2.5 相当的性能,真正做到「全能无短板」。

 

Qwen3-Omni 已正式发布,并提供三种 30B 参数模型变体供下载,基于 Apache 2.0 许可开源免费商用。用户可通过 Qwen Chat 在线试用,在 GitHub 或 Hugging Face 下载模型,并通过阿里云 API 服务进行接入。

 

相关链接:

 

https://huggingface.co/Qwen/Qwen3-Omni-30B-A3B-Captioner

 

https://huggingface.co/Qwen/Qwen3-Omni-30B-A3B-Thinking

 

https://huggingface.co/Qwen/Qwen3-Omni-30B-A3B-Instruct

 

Github:https://github.com/QwenLM/Qwen3-Omni/blob/main/assets/Qwen3_Omni.pdf

 

(@AI 密码花园)

 

3、Qwen 团队发布旗舰级多语言多音色文本转语音模型 Qwen3-TTS-Flash

 

Qwen 团队近日推出其旗舰级多语言多音色文本转语音模型 Qwen3-TTS-Flash。该模型凭借卓越的稳定性和相似度,在 seed-tts-eval 与 MiniMax 多语测试集上均取得了 SOTA 级别的领先地位。

 

Qwen3-TTS-Flash 定位为一款顶级语音合成模型,采用统一架构,支持 17 种高保真音色,每种音色均可输出 10 种语言。语言覆盖范围广泛,包括普通话、英式和美式英语及其他地区口音,以及法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语等。此外,模型还特别支持 9 种汉语方言,如闽南语、吴语、粤语、四川话、北京话、南京话、天津话、陕西话。

 

在性能方面,该模型表现出色:单并发首包延迟最低可达 97ms,满并发首包延迟为 420ms,RTF(实时因子)最低可达 0.30。其功能也十分全面,具备自动语气调节、鲁棒的文本处理以及混合语种生成能力,确保了高品质的语音输出。

 

目前,Qwen3-TTS-Flash 已同步上线 API、Demo 以及多段音频样例。

 

相关链接:

 

https://qwen.ai/blog?id=b4264e11fb80b5e37350790121baf0a0f10daf82&from=research.latest-advancements-list(@通义千问)

02 有亮点的产品

1、「Plaud AI 录音笔」高调入华:海外营收破亿

 

image

 

 

Plaud 三款产品已在电商平台开启预售(图源/企业)

 

曾经不在中国大陆地区销售的智能录音笔 Plaud,最终还是回到内地。

 

9 月 22 日,Plaud 在新品发布会上正式宣布进入中国内地市场,其中,Plaud Note Pro 新品售价为 1299 元;同期开启预售的还包括 Plaud NotePin S 与 Plaud Note 两款产品,分别售价是 1249 元与 1149 元。

 

从价格来看,三款产品定价均高于国内同类竞品。此前钉钉此前发布的 DingTalk A1 青春版定价 499 元、旗舰版定价 799 元,出门问问的 TicNote 电商平台售价为 999 元。

 

Plaud 这次发布会规模不大,没有太多讨论度,显得很低调,与其在海外的高举高打对比鲜明。

 

就在 7 月,官方数据显示,Plaud 全球销量已突破百万台规模,它首创的 AI 录音产品在过去两年中每年均实现十倍级的增长,截至 2024 年 11 月年化收入达到 1 亿美金。对此,硬氪曾做过相关报道。

 

Plaud 之所以短期内迅速起量,源于其发现了一个不被重视的细分需求。在海外市场,一个典型的刚需场景是,苹果手机用户线上会议频繁,却缺乏与之匹配的一体化录音转写方案。用户往往需要先用设备录音,再借助第三方软件转写和分析。Plaud 所提供的「硬件+软件」服务可以有效填补上述市场空白。

 

更重要的是,Plaud 在 AI 大模型出现后立刻作出反馈,吃下第一波 AI 录音机的流量。

 

Plaud 虽然生于深圳,但过去几年都在大陆以外的地区和国家销售。

 

这是一个很明智的决定。当前中国支持实时转写的 AI 录音笔占比超 35%;语音转写技术转化率从 2021 年的 68%、到 2025 年已升至 87%,支持 35 种语言的实时翻译功能成为高端设备标配。

 

这也意味着,Plaud 所面对的用户不需要被教育。他们选择众多,对产品功能、体验及性价比均抱有极为明确的高要求。

 

在多个强势品牌盘踞、竞争高度内卷面前,新公司想做内地市场的硬件生意,难度直接会拉到最高级。

 

这次 Plaud 的中国发布会表现克制,也显示出更多试探的意味。Plaud 很清楚,凭借其海外市场的表现,自己在小圈子里享有一定的品牌溢价优势。但想在内地市场真正突围,胜算未知。(@硬氪)

 

2、Google TV 集成「Gemini」:实现自由对话与个性化娱乐学习

 

谷歌宣布,其旗下的大型语言模型 Gemini 正式进驻 Google TV,为用户带来全新的智能交互体验。首批搭载该功能的设备为 TCL QM9K 系列,并计划在今年内陆续扩展至 Google TV Streamer、Walmart onn。 4K Pro, 以及 2025 年款海信和 TCL 等多款电视型号。

 

用户只需通过 「Hey Google」 语音指令或按下遥控器上的麦克风键,即可唤醒 Gemini,与电视进行自然、流畅的对话。Gemini 不仅能提供个性化的服务,如 剧集回顾跨口味选片 ,还能进行技能教学和 YouTube 视频推荐,极大地丰富了家庭娱乐场景。

 

谷歌强调,此项更新是在现有 Google Assistant 功能基础上进行的扩展,所有原有的指令将全部保留 。Gemini 主要增强了 自然对话多轮推理能力 ,并针对大屏环境进行了专项优化。此项服务目前面向部分国家和语言地区开放,且仅限 18 岁以上用户使用。

 

相关链接:

 

https://blog.google/products/google-tv/gemini-google-tv/( @Google Blog)

03 有态度的观点

1、Luma CEO:好莱坞已死,唯有 AI 能救

 

image

 

 

Luma AI 创始人兼 CEO Amit Jain 近日在接受采访时表示,如果好莱坞继续沿着当前的道路发展,「它已经死了」。

 

他批评当下电影产业过于保守,只依赖少数系列作品反复拍摄,缺乏对新故事和新形式的探索。

 

Jain 指出,如今动辄耗资 1 亿至 2 亿美元的大制作,让行业不敢冒险尝试更多创意,「为什么一年只拍 5 到 10 部所谓的大片,而不是尝试 50 到 100 个新点子?」

 

他认为,生成式 AI 能以更低成本、更高效率帮助创作者验证想法,让电影重新触碰「新奇感」。

 

据此前报道,Ray 3 是首个具备推理能力的生成式视频模型,能够根据创作者在静态画面上的标注(如箭头方向)生成对应的动态效果。

 

Jain 表示,这项技术将为影视创作带来全新可能性,让行业重拾创新精神。(@ APPSO)

 

image

 

image

 

 

 

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

 

写在最后:

 

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

image

 

 

素材来源官方媒体/网络新闻

http://www.hskmm.com/?act=detail&tid=15790

相关文章:

  • 深入解析:一文详解回归分析的探索、分析、检验阶段,以Stata和SPSS为例
  • Vue 包依赖总结
  • 笔记_OpenCV4.5.1新增微信QRCode解码功能
  • 数字孪生 + 碳痕追踪:MyEMS 给能源管理装了套 “全链路全景导航”
  • 空间复杂度和时间复杂度
  • 基于IOS26的iOS 内存分析与必要内存界定
  • 破局 “节能不省钱” 悖论:开源 EMS 生态如何让中小企业用 1/3 成本实现能效跃升?
  • iOS 26 性能测试实战,如何评估启动速度、CPUGPU 负载、帧率与系统资源适配(uni-app 与 iOS 原生应用性能方案)
  • P14062 【MX-X21-T7】[IAMOI R5] 若我不曾见过太阳 题解
  • unity确定性帧同步框架
  • 03-堆和栈
  • 视频汇聚平台EasyCVR如何构建智慧农业监控监管系统?
  • 一套自用的git提交规范,可清晰的识别到关联的任务/bug - 实践
  • 撕开厂商锁定黑箱:MyEMS 如何用开源代码夺回能源管理的 “自主控制权”?
  • 继续 Vibe Coding 撸工具:Markdown写作 + 一键发布
  • C造桥与砍树
  • Keil uVision5 MDK 5.42安装教程(支持ARM Cortex全系列开发)
  • 2024 ICPC ECfinal E
  • 从Void到Task<PublishAggregateResult>:一次服务方法返回类型重构的纠结与决策
  • LVGL移植到STM32F4出现无法运行的问题
  • 题目记录(Before NOIP2025 ver)
  • 专业修复sqlserver master 数据库损坏。
  • jenkins job的configure中配置git时 选择的credential为什么不能选择secret认证方式的数据
  • Day21继承
  • C# Avalonia 15- Animation- ImageWipe
  • 题解:P8067 [BalkanOI 2012] balls
  • 题解:P8300 [COCI 2012/2013 #2] INSPEKTOR
  • SuperHarness-3D低压柜机电协同设计方案!
  • 详细介绍:.NET驾驭Word之力:打造专业文档 - 页面设置与打印控制完全指南
  • 使用.NET标准库实现多任务并行处理的详细过程 - 实践