当前位置: 首页 > news >正文

语音合成技术从1秒样本学习表达风格

语音合成器从一秒语音样本学习表达风格

用户评价显示,具有转移表达风格的合成语音比标准合成语音自然度高出9%。

技术突破

文本转语音(TTS)系统将文本转换为合成语音。近年来,大多数TTS系统已从拼接方法转向神经网络方法,后者从头开始合成语音。

神经网络TTS的最大优势是能够更有效地适应新的语音或说话模式。在国际声学、语音与信号处理会议上发表的研究表明,这种适应可以非常高效。论文描述的系统仅凭约一秒的示例就能改变其表达风格——即合成语音中的兴奋程度。

技术架构

该系统基于最先进的TTS系统进行改进,使用了一种称为变分自编码器(VAE)的神经网络。VAE有两个组件:编码器和解码器。编码器学习生成表示给定输入特征的概率分布,从该分布中抽取的样本传递给解码器,解码器使用它们生成输出。

在典型的TTS应用中,VAE的输入是语音样本。系统还有第二个编码器,以文本字符串作为输入。在运行时,文本字符串的编码表示与VAE编码器的样本连接起来,组合后的表示传递给解码器。解码器的输出是合成语音。

创新技术

研究中向VAE编码器添加了另一个组件。为了降低计算复杂度,编码器学习到的分布通常是对角高斯分布。对角高斯表示分布中每个变量的可能值,但不表示变量对之间的关系(即协方差)。因此,它是对语音样本特征真实分布的近似。

为了将对角高斯扩展为完整协方差高斯,使用了称为户主流的技术。户主流是一系列操作,填补了协方差高斯的空白。

测试了三种户主流实现方案:

  • 原始实现中,第一个操作依赖于参考(语音样本)编码器的输入;后续操作是初始操作的数学(仿射)变换产物
  • 第二种实现中,序列中的所有操作都直接依赖于VAE的输入
  • 第三种实现中,所有操作都独立于输入,网络学习如何一般性地转换语音表示,而不是以不同方式转换每个语音样本

实验证明,第三种实现最为成功。

实验结果

根据测量两个概率分布之间距离的Kullback-Leibler散度,该系统在发现语音生成过程的独立潜在因素方面比基线好22%。

论文还报告了用户研究结果,该研究依赖于隐藏参考和锚点的多刺激方法。受试者认为该系统生成的语音比基线自然度高9%。

技术优势

这些结果表明,应该能够以最小的开发开销大大扩展语音代理的表达范围。

未来展望

在未来的工作中,将把这种方法扩展到语音的其他表达特征,看看是否能够保持甚至改进自然度和表现力的结合。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

http://www.hskmm.com/?act=detail&tid=31760

相关文章:

  • 我的高敏感和家人
  • 对称多项式
  • usb储存之BOT/UAS内核驱动
  • 简述flux思想?
  • 风控评分卡
  • 20232428 2025-2026-1 《网络与系统攻防技术》实验一实验报告
  • JAVA对象内存布局
  • 20232409 2025-2026-1 《网络与系统攻防技术》实验二实验报告
  • 10月15号
  • 记录一次客户现场环境,银河麒麟V10操作系统重启后,进入登录页面后卡死,鼠标键盘无响应的解决过程
  • 图 生成树
  • DolphinScheduler 3.1.9 单机版重启后,项目、流程定义等数据全部丢失
  • ManySpeech.AliParaformerAsr 使用指南
  • 资料拿取表
  • 易路:以“薪酬科技+AI”重塑中国企业薪酬管理新范式
  • 2025年太阳能板终极指南:选择、趋势与品牌推荐
  • 洛谷题单指南-进阶数论-CF776B Sherlock and his girlfriend
  • 下雪了 - L
  • 10/15
  • 2025 印尼物流专线公司推荐榜:聚焦合规高效,深圳恒翔物流凭实力登榜
  • 人文创新研究:在意义的边界探寻新境
  • 平面图最小割与对偶图最短路 - 干
  • 深入解析:Nodejs开发环境搭建
  • 项目管理:PERT/CPM
  • 智能物联网的实时通信之钥——WebSocket
  • 2025 苏州注册公司服务机构实用推荐:选择深度解析
  • 可信AI研究获资助,10位博士生探索算法公平与隐私
  • LeetCode | 45. 跳跃游戏 II(转载)
  • 实用指南:【在Ubuntu 24.04.2 LTS上安装Qt 6.9.2】
  • 基于MATLAB的车道线检测