Interspeech 2022:跨学科研究的增长
循环训练语音合成和语音识别模型,以及通过语言理解改善语音韵律,仅仅是语音相关领域交叉融合的几个例子。
会议背景
当Penny Karanasou在2010年首次在Interspeech上发表论文时,她还是一名计算机科学博士生,撰写关于自动语音识别的论文。六年后,她加入某机构,成为自然语言理解小组的成员。在过去的两年半里,她一直从事文本到语音的研究,最近担任高级应用科学家。因此她对Alexa的三大核心技术都有实践经验。
她也与Interspeech有着深厚的渊源。今年的会议是她第二次担任程序委员会的区域主席,也是她第七次主持会议。鉴于她在对话式AI领域的广泛经验,最吸引她的一个趋势是自动语音识别(ASR)、自然语言理解(NLU)和文本到语音(TTS)之间日益增长的重叠。
技术融合趋势
"近年来,随着新开发的神经技术,我们开始看到不同语音领域之间越来越多的重叠和协同效应,"Karanasou说。"一个例子是实际上可以使用TTS来辅助ASR,即使用TTS系统生成合成数据以进行数据增强。在英语中,我们可能需要特定领域的数据、词汇表外单词,或者数据分布尾部不常见的示例。但这种方法对资源匮乏的语言也很有用。"
"另一种结合ASR和TTS的方法是使用半监督学习来改进两个系统的联合训练。你从数据开始,然后以循环方式进行训练。你训练一个系统,然后使用其输出来训练另一个系统。你使用某种置信度度量或其他选择方法来选择保留的数据进行新训练。进行这种循环训练实际上可以改进两个任务。"
"近年来我们观察到的另一件事是,两个领域都有共同的方法。在TTS和ASR中,社区都在朝着全神经端到端系统发展。我们还看到上下文的添加,以实现长格式的ASR和TTS。因此,不仅仅是关注一个句子,你还要考虑对话中先前所说的更多上下文——或任何类型的上下文。"
语言理解与语音的融合
"我认为这也是NLU影响开始发挥作用的地方,"Karanasou说。"随着所有这些语言模型——如最著名的BERT——我们看到NLU被整合到语音领域。我们看到BERT被用于TTS和ASR论文中,为系统添加更多上下文和句法语义信息。例如,通过拥有正确的句法和语义信息,我们也可以在TTS中获得更好的韵律。"
然而,正如Karanasou解释的那样,像BERT这样的语言模型在NLU中的成功本身就是学科间交叉融合的一个例子。语言模型编码单词序列的概率,而一个单词与其他单词的共现结果证明是其含义的良好指标。但在引入NLU之前,语言模型长期用于ASR中,以区分相同声音序列的不同解释(一个经典例子是"Pulitzer Prize"和"pullet surprise")。
"我们有为ASR开发的语言模型,"Karanasou说,"突然之间,基于Transformer架构的BERT出现了,现在被用于编码器、解码器和其他模块,而且效果要好得多。"
端到端模型的发展
Interspeech一直有关于ASR和TTS的论文。毕竟,这两个任务是彼此的镜像:文本到语音和语音到文本。但Karanasou指出,对话式AI子领域之间日益重叠的另一个迹象是,越来越多的Interspeech论文涉及以语音作为输入并以端到端方式执行下游计算的模型。这些包括关于口语理解(SLU,语音识别和NLU的结合)、口语翻译和口语对话的研究。
"传统上,我们会在NLP会议上看到这些关于口语理解的部分,"Karanasou说。"但现在我们在像Interspeech这样的会议上看到更多的SLU部分。"
"说了所有这些,我们仍然必须记住,每个领域都有自己的挑战和目标。ASR是TTS的相反任务,但你使用不同的数据和不同的评估技术。例如,TTS主要基于主观评估,而ASR最小化词错误率,因此是客观评估。"
跨学科研究的意义
对Karanasou来说,对话式AI子领域之间的交叉融合只是跨学科研究优势的一个例子。
"我认为人们应该阅读其他领域的论文,"她说。"机器翻译当然是NLU的一部分。但越来越多地,我们甚至从图像处理、计算机视觉中获得灵感。理解另一个领域发生的事情并将其转移到你的领域,这实际上是丰富的。"
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
公众号二维码
公众号二维码