当前位置：首页 > news >正文

见证语音领域 GPT-3 时刻！小米开源端到端语音模型 MiMo Audio；Xbox上线游戏助手，实时游戏理解+语音交互丨日报

news 2025/9/20 17:05:29

开发者朋友们大家好：

这里是 「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@Jerry fong，@鲍勃

01有话题的技术

1、小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio

小米正式开源首个原生端到端语音模型——Xiaomi-MiMo-Audio，它基于创新预训练架构和上亿小时训练数据，首次在语音领域实现基于 ICL 的少样本泛化，并在预训练观察到明显的**「涌现」**行为。

后训练进一步激发了 Xiaomi-MiMo-Audio 的智商、情商、表现力与安全性在内的跨模态对齐能力，语音对话在自然度、情感表达和交互适配上呈现极高的拟人化水准。

不止开源，欲与闭源试比高

在通用语音理解及对话等多项标准评测基准中，MiMo-Audio 大幅超越了同参数量的开源模型，取得 7B 最佳性能
在音频理解基准 MMAU 的标准测试集上，MiMo-Audio 超过 Google 闭源语音模型 Gemini-2.5-Flash
在面向音频复杂推理的基准 Big Bench Audio S2T 任务中，MiMo-Audio 同样超越了 OpenAI 闭源的语音模型 GPT-4o-Audio-Preview

多重创新，多个首次

首次证明把语音无损压缩预训练 Scaling 至 1 亿小时可以「涌现」出跨任务的泛化性，表现为 Few-Shot Learning 能力，见证语音领域的「GPT-3 时刻」

首个明确语音生成式预训练的目标和定义，并开源一套完整的语音预训练方案，包括无损压缩的 Tokenizer、全新模型结构、训练方法和评测体系，开启语音领域的「LLaMA 时刻」

首个把 Thinking 同时引入语音理解和语音生成过程中的开源模型，支持混合思考

全方位开源：

预训练模型 MiMo-Audio-7B-Base (Hugging Face)。
指令微调模型 MiMo-Audio-7B-Instruct (Hugging Face)，支持 non-thinking 和 thinking 两种模式，为研究语音强化学习 (RL) 和智能体 (Agentic) 训练提供基座。
1.2B 参数量的 Tokenizer 模型及其推理代码 (GitHub)。
详细技术报告 (GitHub)。
一套完整的语音模型预训练 ICL 测评及后训练评估框架 (GitHub)。

模型：https://huggingface.co/XiaomiMiMo/MiMo-Audio-7B-Base

完整实例展示：https://xiaomimimo.github.io/MiMo-Audio-Demo/

详细链接：

https://mp.weixin.qq.com/s/5TjOye3yLNAfVkOKRlb8rg

（@小米AI / @GitHub）

2、面壁智能 & 清华大学 VoxCPM 开源：0.5B 参数语音生成模型，树立零样本声音克隆新标杆

9 月 18 日，面壁智能联合清华大学深圳国际研究生院人机语音交互实验室正式推出语音生成基座模型 VoxCPM。该模型参数规模为 0.5B，在语音自然度、音色相似度及韵律表现力方面均达到了业内 SOTA 水平。

性能表现：RTF ≈ 0.17，支持流式输出 VoxCPM 在 Seed-TTS-EVAL 测试中表现优异，词错误率极低，音色克隆任务中相似度高达真人级别。在 NVIDIA RTX 4090 显卡上实现 RTF ≈ 0.17 的推理速度，满足高质量实时交互需求。
听感体验：情绪、口音、韵律俱佳模型可根据文本内容自动选择合适的声音风格，生成如天气播报、战前演讲、方言主播等多种语音场景。支持中英双语复刻，极少样本即可「原音重现」，甚至能朗读数学公式与符号。
技术架构：融合语言建模与扩散生成 VoxCPM 采用端到端扩散自回归架构，融合层次化语言建模与局部扩散生成技术。核心模块包括 LocEnc、TSLM、RALM 与 LocDiT，通过 VAE 编解码器实现语音连续特征的高效生成与重构。目前 VoxCPM 已在 GitHub、Hugging Face 等多个平台开源，开发者可自由下载与体验，还可通过线上 PlayGround 快速试用，音频样例页面也已同步上线。

VoxCPM 支持音素标记替换，实现自定义读音纠正（需关闭文本正则选项，中文为拼音，英文为 ARPAbet）

VoxCPM 可根据对文本内容的超强理解，自主选择合适的声音、腔调、韵律风格生成音频，带来「声」临其境的听觉体验。比如，化身为天气预报员字正腔圆的播报、英雄将领战前慷慨激昂地演讲、甚至还可以模拟方言主播：

VoxCPM 模型已在 GitHub、Hugging Face、ModelScope 上全面开源，并提供在线 PlayGround 体验平台和音频样例页面。详细技术报告即将发布。

Github：https://github.com/OpenBMB/VoxCPM/

Hugging Face:

https://huggingface.co/openbmb/VoxCPM-0.5B

详细链接：https://mp.weixin.qq.com/s/8vTOZkhWYnqVUQRDVPIuEA（@面壁智能 / @清华大学）

02有亮点的产品

1、Google Chrome 集成「Gemini」：推出 AI 智能体浏览助手，重塑更主动、更安全的上网体验

Google 近日宣布将旗下强大的 LLM 「Gemini」深度集成到 Chrome 浏览器中，推出一系列 AI 驱动的创新功能。这一举措旨在将 Chrome 从一个被动的「网页窗口」，转变为一个主动、智能且更安全的「浏览伙伴」，通过理解用户上下文、提供多步任务「智能体」能力和增强全能框智能搜索，彻底改变用户的上网体验。

关键亮点

「Gemini in Chrome 1」AI 浏览助手： 作为核心亮点，Gemini 将在 Chrome 1 中上线，成为用户的 AI 浏览助手。它能理解多标签页上下文，帮助学生总结文章、在 YouTube 视频中查找引用，并能记住用户访问过的页面，以便随时拾起。
「智能体」能力： Gemini in Chrome 正在开发更高级的「智能体」能力，能够执行多步任务，例如一键完成订购杂货等繁琐事务，将 30 分钟的琐事简化为 3 步操作。
「AI Mode」智能全能框： Chrome 的地址栏（omnibox）将升级为「AI Mode」，支持用户直接在搜索栏中提问复杂的、多部分的问题，并进行深入追问和探索相关链接。
上下文相关搜索建议： 全能框将提供上下文相关的搜索建议。例如，当用户购物床垫时，可能会建议「保修政策是什么？」，使信息获取更简单。
AI 提升在线安全： Google 持续利用 AI 增强用户在线安全，包括：
1、通过 Chrome autofill 安全填写登录凭据。
2、主动阻止新型诈骗。
3、帮助用户修复密码泄露和垃圾通知等安全问题。
4、简化敏感权限授予等隐私决策。
5、AI 驱动的警告已使 Android 用户每日减少约 30 亿次诈骗和垃圾网站通知。
Gemini in Chrome 正在面向美国 Mac 和 Windows 用户（语言设置为英语）逐步推出，即将支持 Android 和 iOS。
全能框的上下文建议已在美国上线，AI Mode 将于本月晚些时候在美国推出。
这些功能最初支持英语查询，未来几周将扩展到更多国家和语言。

详细链接：

https://blog.google/products/chrome/chrome-reimagined-with-ai/

（@Google Chrome Blog）

2、Xbox 推出「Gaming Copilot」：AI 游戏助手登陆 PC Game Bar 与 Xbox 移动应用，体验沉浸式游戏

Xbox 正式推出其 AI 游戏助手「Gaming Copilot」，旨在通过个性化推荐、游戏内帮助和实时洞察，重塑玩家的游戏体验。该功能已于即日起逐步在 PC Game Bar 面向 18 岁及以上玩家推出，并将于 10 月登陆 Xbox 移动应用。Gaming Copilot 旨在通过 AI 技术，让玩家更专注于游戏本身，享受更流畅、更便捷的互动。

关键亮点

AI 游戏助手全面上线： 「Gaming Copilot」作为「个人游戏助手」，提供游戏推荐、帮助、洞察等功能，已集成到 Windows PC Game Bar，并将于下月登陆 Apple 和 Android 平台的 Xbox 移动应用。
多平台与跨设备支持： Gaming Copilot 首先在 PC Game Bar 推出，10 月起支持 Xbox 移动应用。未来将优化支持掌机设备（如 ROG Xbox Ally 和 Ally X）和 Xbox 主机，提供区域性支持（除中国大陆外）。
核心功能与交互模式：
1、语音模式（Voice Mode）： 提供「Push to Talk」快捷键和「Mini Mode」小窗模式，实现无缝的游戏内语音交互，不打断游戏进程。
2、实时游戏理解： Gaming Copilot 不仅识别玩家正在玩的游戏，还能实时理解屏幕上的游戏内容，提供针对性帮助（如：询问敌人信息、NPC 背景、攻略技巧等）。
3、个性化推荐与成就追踪： 可根据玩家喜好或游戏历史推荐新游戏，并帮助追踪和寻找未解锁的成就。
4、初期反馈积极： 在预览阶段，玩家最常使用 Gaming Copilot 来提升游戏玩法，解决关于任务、策略和角色构建等问题。
5、优化玩家体验： 旨在通过 AI 创新，提供更个性化的游戏体验，节省玩家时间，让他们更专注于享受游戏乐趣。