当前位置: 首页 > news >正文

见证语音领域 GPT-3 时刻!小米开源端到端语音模型 MiMo Audio;Xbox上线游戏助手,实时游戏理解+语音交互丨日报

 

 

image

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@Jerry fong,@鲍勃

01有话题的技术

1、小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio

 

小米正式开源首个原生端到端语音模型——Xiaomi-MiMo-Audio,它基于创新预训练架构和上亿小时训练数据,首次在语音领域实现基于 ICL 的少样本泛化,并在预训练观察到明显的**「涌现」**行为。

 

后训练进一步激发了 Xiaomi-MiMo-Audio 的智商、情商、表现力与安全性在内的跨模态对齐能力,语音对话在自然度、情感表达和交互适配上呈现极高的拟人化水准。

 

不止开源,欲与闭源试比高

 

  • 在通用语音理解及对话等多项标准评测基准中,MiMo-Audio 大幅超越了同参数量的开源模型,取得 7B 最佳性能

  • 在音频理解基准 MMAU 的标准测试集上,MiMo-Audio 超过 Google 闭源语音模型 Gemini-2.5-Flash

  • 在面向音频复杂推理的基准 Big Bench Audio S2T 任务中,MiMo-Audio 同样超越了 OpenAI 闭源的语音模型 GPT-4o-Audio-Preview

 

image

 

 

多重创新,多个首次

 

  • 首次证明把语音无损压缩预训练 Scaling 至 1 亿小时可以「涌现」出跨任务的泛化性,表现为 Few-Shot Learning 能力,见证语音领域的 「GPT-3 时刻」

 

image

 

 

  • 首个明确语音生成式预训练的目标和定义,并开源一套完整的语音预训练方案,包括无损压缩的 Tokenizer、全新模型结构、训练方法和评测体系,开启语音领域的「LLaMA 时刻」

 

image

 

 

  • 首个把 Thinking 同时引入语音理解和语音生成过程中的开源模型,支持混合思考

 

全方位开源:

 

  • 预训练模型 MiMo-Audio-7B-Base (Hugging Face)。

  • 指令微调模型 MiMo-Audio-7B-Instruct (Hugging Face),支持 non-thinking 和 thinking 两种模式,为研究语音强化学习 (RL) 和智能体 (Agentic) 训练提供基座。

  • 1.2B 参数量的 Tokenizer 模型及其推理代码 (GitHub)。

  • 详细技术报告 (GitHub)。

  • 一套完整的语音模型预训练 ICL 测评及后训练评估框架 (GitHub)。

 

模型:https://huggingface.co/XiaomiMiMo/MiMo-Audio-7B-Base

 

完整实例展示:https://xiaomimimo.github.io/MiMo-Audio-Demo/

 

详细链接:

 

https://mp.weixin.qq.com/s/5TjOye3yLNAfVkOKRlb8rg

 

(@小米AI / @GitHub)

 

2、面壁智能 & 清华大学 VoxCPM 开源:0.5B 参数语音生成模型,树立零样本声音克隆新标杆

 

image

 

 

9 月 18 日,面壁智能联合清华大学深圳国际研究生院人机语音交互实验室正式推出语音生成基座模型 VoxCPM。该模型参数规模为 0.5B,在语音自然度、音色相似度及韵律表现力方面均达到了业内 SOTA 水平。

 

  • 性能表现:RTF ≈ 0.17,支持流式输出 VoxCPM 在 Seed-TTS-EVAL 测试中表现优异,词错误率极低,音色克隆任务中相似度高达真人级别。在 NVIDIA RTX 4090 显卡上实现 RTF ≈ 0.17 的推理速度,满足高质量实时交互需求。

  • 听感体验:情绪、口音、韵律俱佳 模型可根据文本内容自动选择合适的声音风格,生成如天气播报、战前演讲、方言主播等多种语音场景。支持中英双语复刻,极少样本即可「原音重现」,甚至能朗读数学公式与符号。

  • 技术架构:融合语言建模与扩散生成 VoxCPM 采用端到端扩散自回归架构,融合层次化语言建模与局部扩散生成技术。核心模块包括 LocEnc、TSLM、RALM 与 LocDiT,通过 VAE 编解码器实现语音连续特征的高效生成与重构。目前 VoxCPM 已在 GitHub、Hugging Face 等多个平台开源,开发者可自由下载与体验,还可通过线上 PlayGround 快速试用,音频样例页面也已同步上线。

 

VoxCPM 支持音素标记替换,实现自定义读音纠正(需关闭文本正则选项,中文为拼音,英文为 ARPAbet)

 

VoxCPM 可根据对文本内容的超强理解,自主选择合适的声音、腔调、韵律风格生成音频,带来「声」临其境的听觉体验。比如,化身为天气预报员字正腔圆的播报、英雄将领战前慷慨激昂地演讲、甚至还可以模拟方言主播:

 

VoxCPM 模型已在 GitHub、Hugging Face、ModelScope 上全面开源,并提供在线 PlayGround 体验平台和音频样例页面。详细技术报告即将发布。

 

Github:https://github.com/OpenBMB/VoxCPM/

 

Hugging Face:

 

https://huggingface.co/openbmb/VoxCPM-0.5B

 

详细链接:https://mp.weixin.qq.com/s/8vTOZkhWYnqVUQRDVPIuEA(@面壁智能 / @清华大学)

02有亮点的产品

1、Google Chrome 集成「Gemini」:推出 AI 智能体浏览助手,重塑更主动、更安全的上网体验

 

image

 

 

Google 近日宣布将旗下强大的 LLM 「Gemini」 深度集成到 Chrome 浏览器中,推出一系列 AI 驱动的创新功能。这一举措旨在将 Chrome 从一个被动的「网页窗口」,转变为一个主动、智能且更安全的「浏览伙伴」,通过理解用户上下文、提供多步任务「智能体」能力和增强全能框智能搜索,彻底改变用户的上网体验。

 

关键亮点

 

  • 「Gemini in Chrome 1」AI 浏览助手: 作为核心亮点,Gemini 将在 Chrome 1 中上线,成为用户的 AI 浏览助手。它能理解多标签页上下文,帮助学生总结文章、在 YouTube 视频中查找引用,并能记住用户访问过的页面,以便随时拾起。

  • 「智能体」能力: Gemini in Chrome 正在开发更高级的「智能体」能力,能够执行多步任务,例如一键完成订购杂货等繁琐事务,将 30 分钟的琐事简化为 3 步操作。

  • 「AI Mode」智能全能框: Chrome 的地址栏(omnibox)将升级为「AI Mode」,支持用户直接在搜索栏中提问复杂的、多部分的问题,并进行深入追问和探索相关链接。

  • 上下文相关搜索建议: 全能框将提供上下文相关的搜索建议。例如,当用户购物床垫时,可能会建议「保修政策是什么?」,使信息获取更简单。

  • AI 提升在线安全: Google 持续利用 AI 增强用户在线安全,包括:

  • 1、通过 Chrome autofill 安全填写登录凭据。

  • 2、主动阻止新型诈骗。

  • 3、帮助用户修复密码泄露和垃圾通知等安全问题。

  • 4、简化敏感权限授予等隐私决策。

  • 5、AI 驱动的警告已使 Android 用户每日减少约 30 亿次诈骗和垃圾网站通知。

  • Gemini in Chrome 正在面向美国 Mac 和 Windows 用户(语言设置为英语)逐步推出,即将支持 Android 和 iOS。

  • 全能框的上下文建议已在美国上线,AI Mode 将于本月晚些时候在美国推出。

  • 这些功能最初支持英语查询,未来几周将扩展到更多国家和语言。

 

详细链接:

 

https://blog.google/products/chrome/chrome-reimagined-with-ai/

 

(@Google Chrome Blog)

 

2、Xbox 推出「Gaming Copilot」:AI 游戏助手登陆 PC Game Bar 与 Xbox 移动应用,体验沉浸式游戏

 

image

 

 

Xbox 正式推出其 AI 游戏助手 「Gaming Copilot」,旨在通过个性化推荐、游戏内帮助和实时洞察,重塑玩家的游戏体验。该功能已于即日起逐步在 PC Game Bar 面向 18 岁及以上玩家推出,并将于 10 月登陆 Xbox 移动应用。Gaming Copilot 旨在通过 AI 技术,让玩家更专注于游戏本身,享受更流畅、更便捷的互动。

 

关键亮点

 

  • AI 游戏助手全面上线: 「Gaming Copilot」作为「个人游戏助手」,提供游戏推荐、帮助、洞察等功能,已集成到 Windows PC Game Bar,并将于下月登陆 Apple 和 Android 平台的 Xbox 移动应用。

  • 多平台与跨设备支持: Gaming Copilot 首先在 PC Game Bar 推出,10 月起支持 Xbox 移动应用。未来将优化支持掌机设备(如 ROG Xbox Ally 和 Ally X)和 Xbox 主机,提供区域性支持(除中国大陆外)。

  • 核心功能与交互模式:

  • 1、语音模式(Voice Mode): 提供「Push to Talk」快捷键和「Mini Mode」小窗模式,实现无缝的游戏内语音交互,不打断游戏进程。

  • 2、实时游戏理解: Gaming Copilot 不仅识别玩家正在玩的游戏,还能实时理解屏幕上的游戏内容,提供针对性帮助(如:询问敌人信息、NPC 背景、攻略技巧等)。

  • 3、个性化推荐与成就追踪: 可根据玩家喜好或游戏历史推荐新游戏,并帮助追踪和寻找未解锁的成就。

  • 4、初期反馈积极: 在预览阶段,玩家最常使用 Gaming Copilot 来提升游戏玩法,解决关于任务、策略和角色构建等问题。

  • 5、优化玩家体验: 旨在通过 AI 创新,提供更个性化的游戏体验,节省玩家时间,让他们更专注于享受游戏乐趣。

 

Gaming Copilot 将于即日起逐步面向 18 岁及以上玩家在 PC Game Bar 上线。10 月将登陆 Xbox 移动应用。未来将扩展至掌机(如 10 月 16 日发布的 ROG Xbox Ally 和 Ally X)及 Xbox 主机。支持除中国大陆以外的所有地区。

 

详细链接:

 

https://news.xbox.com/en-us/2025/09/18/gaming-copilot-xbox-pc-mobile/

 

(@Xbox Wire)

 


03有态度的观点

1、宇树科技副总:机器人还是要「进厂打工」

 

据澎湃新闻报道,在日前的 2025 世界储能大会上,宇树科技副总经理杜鑫峰表示,人形机器人虽然在文娱表演、格斗和舞蹈等场景中广受关注,但其真正的价值仍在于进入工厂,承担复杂操作和繁重、重复的工作。

 

杜鑫峰介绍,随着近两年 AI 大模型的突破,机器人产业正从「打通关」模式转向「分工」模式:硬件由硬件公司负责,学习交给模型公司,行业应用则由专业场景训练完成,最终通过硬件与模型的结合实现快速落地。这也是人形机器人在 2024 年、2025 年迅速走红的重要原因。

 

值得注意的是,宇树科技近期与国网杭州供电公司、具身智能基地公司、国网浙江华电研究院签署了「电力 + 具身智能」框架合作协议,计划在平台建设、科技攻关、标准制定和人才培养等方面展开深度合作。

 

杜鑫峰透露,公司已推出统一大模型,通过孪生平台先行训练,再在现场快速应用,目标是打造「所见即所得、即插即用」的机器人模式。

 

根据公开数据,2024 年宇树科技机器狗年销量达到 2.37 万台,占全球市场近 70%;人形机器人交付超过 1500 台。公司创始人兼 CEO 王兴兴也强调,宇树的目标是让机器人真正「干活」,解放并提升生产力,而不仅仅停留在表演层面。

 

目前,宇树科技正处于上市辅导阶段,预计将在 10 月至 12 月间提交 IPO 文件,相关运营数据也将随之披露。

 

(@APPSO)

 

image

 

image

 

 

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

 

写在最后:

 

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

image

 

 

素材来源官方媒体/网络新闻

http://www.hskmm.com/?act=detail&tid=10817

相关文章:

  • go语言学习之基本数据类型转字符串
  • DeepLearning-LoRA 及其先进变体技术指南
  • 成功没有奇迹,只有积累----Bruce Lee
  • strtol() 函数 - 字符串转长整数(long int)
  • TypeScript学习
  • 对Transformer的个人理解
  • 第二节中央处理单元CPU知识点
  • day08 课程
  • 最小生成树MST-07 - jack
  • Java基础语法1
  • 不定高元素动画实现方案(上)
  • 实用指南:【鸿蒙面试题-6】LazyForEach 懒加载
  • 0voice-2.1.2-事件驱动reactor的原理与实现
  • Python 潮流周刊#120:新型 Python 类型检查器对比(摘要)
  • 精选HTML、JavaScript、ASP代码片段集锦
  • 线下活动丨RTE 开发者社区S 创上海 2025:9 家社区项目、3 场圆桌、1 场演讲、1 场派对、1 个彩蛋
  • 使用SCP命令在CentOS 7上向目标服务器传输文件
  • 简单来讲讲C#中的锁
  • 使用BigDecimal类进行精确的加、减、乘、除操作,并比较BigDecimal数组元素大小
  • mysql去除空格,可以使用的函数
  • 安装k8s的控制平面脚本
  • MyBatis Mapper中使用limit参数的查询问题
  • Capacitor 打包后接口访问不到的排查经历 - 指南
  • Kubernetes 工作节点的安装脚本
  • updateByPrimaryKeySelective()方法因字段为null导致的更新不成功问题解决办法
  • 股探报告
  • LLVM/Clang Out-of-Tree开发
  • 基于LlamaIndex的相似性搜索
  • 第二周预习报告(AI)
  • 编写代码时遇到的checkstyle问题归纳