当前位置: 首页 > news >正文

语音识别与合成的融合技术解析

Interspeech:语音识别与合成的融合之处

随着今年Interspeech会议的临近,"生成式AI"已成为机器学习界和大众媒体的热门词汇,通常指合成文本或图像的模型。文本转语音(TTS)模型作为Interspeech的主要研究领域,在某种意义上一直是"生成式"的。但正如某中心Alexa AI组织的高级首席科学家所解释的,TTS也已被新的生成式AI范式重塑。

从点到点训练到生成式方法

最初的神经TTS模型采用"点到点"方式训练。"假设我们在估计频谱图——频谱图基本上是一幅图像,其中每个像素、图像的每个小元素都代表信号在特定时间和频率上的能量含量,"该专家解释道。"我们当时能做的最好方法就是查看估计值与期望模型创建的语音声音之间的距离。"

"但在文本转语音数据中,有许多有效的文本表达方式。可以改变语速;可以改变重音;可以在不同位置插入停顿。因此,认为存在单一正确点估计的概念是有缺陷的。"

生成式AI为点到点训练提供了替代方案。例如,大语言模型(LLM)计算词序列的概率分布;在生成时,它们只需从这些分布中选择样本。

"文本转语音的生成式建模进展具有这样的特点:它们没有单一正确答案,"该专家表示。"你是在估计所有可能答案正确的概率。"

频谱量化方法

最近,一种称为频谱量化的新方法在TTS研究人员中引起了兴奋。

"如果我们有一个声学标记器——即能够获取频谱图的100毫秒片段并将其转换为整数的组件——如果我们有这样的正确组件,我们就将这个连续问题、这个建模频谱图的图像处理问题,转化为单元预测问题,"该专家说。"模型不关心这些整数来自哪里。它只知道有一个序列,并且在高层存在某种结构。"

在这方面,该专家解释说,频谱量化模型非常类似于因果LLM,后者训练用于预测词序列中的下一个词。

"因果LLM看到的也只是这些,"该专家说。"它看不到文本;它看到的是文本标记。频谱量化让模型能够以与查看文本完全相同的方式查看语音。现在我们可以将所有用于扩展大语言模型的代码、建模和见解应用于语音建模。这是我现在感到兴奋的地方。"

统一的语音处理

该专家的工作不仅限于TTS;他在某中心合著的大部分论文都涉及自动语音识别(ASR)和处理声学输入信号的相关技术。他工作的广度使他对语音作为研究主题有着更全面的看法。

"根据我的经验,我无法将生成语音和理解语音的过程分开,"该专家说。"这对我来说似乎非常统一。我认为,如果要构建完美的机器,它也不会真正区分试图理解我在说什么和试图理解对话中另一方在说什么。"

更具体地说,该专家表示:"端到端进行语音识别和端到端进行TTS的问题具有相似之处,例如能够处理数据中未充分表示的词汇。ASR系统难以转录从未听过的单词,而TTS系统则难以正确发音从未遇到过的单词。因此,尽管这两个系统彼此相反,但它们的问题空间往往重叠,为解决一个问题提出的解决方案也可以应用于另一个问题。"

例如,某中心AI研究人员已使用TTS模型生成的音频数据来训练ASR模型。但该专家表示,这仅仅是冰山一角。"在某中心,"他说,"我的使命是将文本转语音和语音转文本更紧密地结合在一起。"
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

http://www.hskmm.com/?act=detail&tid=26769

相关文章:

  • 2025 年阳光导入源头厂家最新推荐榜:领军企业技术实力、案例与直销模式深度解析及选择指南工厂/学校/医院/地下车库/隧道阳光导入系统厂家推荐
  • 从Node.js到React/Vue3:流式输出实用的技术的全栈实现指南
  • 用低成本FPGA实现FSMC接口的多串口(UART)控制器
  • 2025 火烧板源头厂家最新推荐榜单:自有矿山保障品质,高硬度耐磨产品全覆盖,五莲花 / 芝麻白 / 防滑芝麻黑采购优选指南
  • 2025 年太阳能路灯厂商最新推荐榜:聚焦优质企业,从技术实力到合作案例全方位解析太阳能道路灯/景观灯/警示灯/庭院灯/草坪灯/杀虫灯厂家推荐
  • 2025 年最新软件开发机构推荐排行榜:涵盖 CRM / 物联网 / 运维管理等系统定制的权威甄选指南成都软件开发/软件定制开发/crm系统定制软件开发机构推荐
  • Luogu P11660 我终将成为你的倒影 题解 [ 紫 ] [ 分块 ] [ 分类讨论 }
  • 2025 年最新推荐!小程序开发机构排行榜:覆盖定制开发 / 电商 / 预订 / 配送多场景优质服务商成都小程序开发/小程序定制开发/电商小程序开发/预订服务小程序开发公司推荐
  • CF280D k-Maximum Subsequence Sum 题解(线段树+反悔贪心维护k段最大子段和)
  • 2025 西安新房住宅最新推荐榜权威发布:多维度测评 + 选房指南,助你精准置业品质/高端/优质/品牌/刚需新房推荐
  • C# async await 测试一
  • 2025 年快速卷帘门厂家最新推荐排行榜:聚焦智能定制与高效供货,精选实力厂家助您精准选购
  • 实验课1
  • 课后作业1
  • 详细介绍:Windows如何定制键盘按键
  • 深入解析:Oracle、PostgreSQL 与 MySQL 数据库对比分析与实践指南
  • TheHackersLabs Templo writeup
  • PCIe扫盲——链路初始化与训练基础(三)之LTSSM
  • #attrs
  • 国庆比赛总结
  • 记录第一个博客
  • PCIe扫盲——链路初始化与训练基础(二)
  • 2025 年 ppt 素材模板 /ppt 模板 ai 生成 /ppt 模板制作 /ppt 模版 / 课件 PPT 模板工具推荐:iSlide 技术优势与全场景服务能力解析
  • 10.8
  • 课后作业1(01-方法)
  • VMware ESXi 9.0 macOS Unlocker OEM BIOS 2.7 NVMe 驱动特殊定制版
  • 项目案例作业2
  • VMware ESXi 9.0 macOS Unlocker OEM BIOS 2.7 H3C 新华三 定制版
  • VMware ESXi 9.0 macOS Unlocker OEM BIOS 2.7 Inspur 浪潮 定制版
  • 上手 Rokid JSAR:新手也能快速入门的 AR 开发之旅