news 2026/2/17 8:37:14

Interspeech 2022:跨学科研究的融合与演进

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Interspeech 2022:跨学科研究的融合与演进

Interspeech 2022:跨学科研究的增长

循环训练语音合成与语音识别模型、利用语言理解来改善语音韵律,这些只是语音相关领域交叉融合的几个例子。


当 Penny Karanasou 在 2010 年首次于 Interspeech 上发表论文时,她还是一名计算机科学的博士生,论文主题是自动语音识别。六年后,她加入了某中心,成为自然语言理解小组的一员。在过去的两年半里,她一直从事文本到语音的研究工作,最近担任高级应用科学家。因此,她对 Alexa 的三大核心技术都有亲身体验。

她也与 Interspeech 有着深厚的渊源。今年的会议是她第二次担任程序委员会的分区主席,也是她第七次主持会议环节。考虑到她在对话式 AI 领域广泛的经验,最令她着迷的领域趋势之一是自动语音识别、自然语言理解和文本到语音之间日益增长的重叠,这或许是很自然的。

“近年来,随着新开发的神经技术,我们开始看到不同语音领域之间有越来越多的重叠和协同作用,”Karanasou 说,“一个方向是实际上可以将 TTS 用于 ASR,即使用 TTS 系统生成合成数据进行数据增强。在英语中,我们可能需要特定领域的数据,或用于词汇表外单词的数据,或用于数据分布长尾中不常见示例的数据。但这也是低资源语言的一种有用方法。”

“另一种结合 ASR 和 TTS 的方法是使用半监督学习来改进两个系统的联合训练。你从数据开始,然后以循环方式训练。你训练一个系统,并用其输出来训练另一个。然后使用某种置信度指标或其他选择方法来选择保留的数据进行新一轮训练。进行这种循环训练实际上可以改善两个任务。”

“近年来我们观察到的另一件事是,两个领域有共同的方法。在 TTS 和 ASR 中,整个社区都在朝着全神经端到端系统发展。我们还看到上下文的加入,以实现长格式的 ASR 和 TTS。因此,不仅仅关注一个句子,而是考虑对话中先前所说的更多上下文——或任何类型的上下文。”

语言理解与语音

“我认为这也是 NLU 产生影响的地方,”Karanasou 说,“随着所有这些语言模型的出现——比如最著名的 BERT——我们看到 NLU 被整合到语音领域中。我们看到 BERT 被用于 TTS 和 ASR 论文中,为系统添加更多上下文及句法和语义信息。例如,通过正确的句法和语义信息,我们也可以在 TTS 中获得更好的韵律。”

正如 Karanasou 所解释的,像 BERT 这样的语言模型在 NLU 中的成功本身也是学科间交叉融合的一个例子。语言模型对单词序列的概率进行编码,而一个单词与其他单词的共现被证明是其含义的良好指标。但在它们被引入 NLU 之前,语言模型早已被用于 ASR 中,以区分相同声音序列的不同解释(一个经典的例子是 “Pulitzer Prize” 和 “pullet surprise”)。

“我们有为 ASR 开发的语言模型,”Karanasou 说,“突然间,基于 Transformer 架构的 BERT 出现了,现在被用于编码器、解码器和其他模块,而且效果要好得多。”

Interspeech 一直都有关于 ASR 和 TTS 的论文。毕竟,这两个任务是彼此的镜像:文本到语音和语音到文本。但 Karanasou 指出,对话式 AI 子领域之间日益增长的重叠的另一个迹象是,越来越多的 Interspeech 论文关注以语音作为输入并以端到端方式执行下游计算的模型。这包括关于口语理解、口语翻译和口语对话的研究。

“传统上,我们会在 NLP 会议上看到这些关于口语理解的环节,”Karanasou 说,“但现在我们在像 Interspeech 这样的会议上看到了更多的 SLU 环节。”

“说了这么多,我们仍然必须记住,每个领域都有自己的挑战和目标。ASR 是 TTS 的相反任务,但你需要处理不同的数据和不同的评估技术。例如,TTS 主要基于主观评估,而 ASR 则最小化词错误率,所以是客观评估。”

然而,对 Karanasou 来说,对话式 AI 子领域之间的交叉融合只是跨学科研究优势的一个例子。

“我认为人们应该阅读其他领域的论文,”她说,“机器翻译当然是 NLU 的一部分。但越来越多的是,我们甚至从图像处理、计算机视觉中获得想法。理解另一个领域发生的事情并将其转移到你自己的领域,这实际上是非常丰富的。”
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/15 20:18:23

医院HIS系统如何集成百度编辑器实现PDF病历跨平台编辑?

Word文档导入与粘贴功能解决方案 项目背景与需求分析 作为安徽某IT公司的.NET工程师,我最近负责在企业网站后台管理系统中增加Word粘贴和文档导入功能。客户的核心需求是: Word粘贴功能:直接从Word复制内容到网站编辑器,图片自…

作者头像 李华
网站建设 2026/2/16 23:07:43

保险网页项目怎么用javascript实现文件夹上传及加密?

大文件传输解决方案技术方案 作为陕西某软件公司项目负责人,针对公司产品部门提出的大文件传输需求,我经过深入调研和技术评估,提出以下专业解决方案。 一、需求分析与技术挑战 核心需求 支持50G以上大文件传输,包含文件/文件…

作者头像 李华
网站建设 2026/2/15 19:03:26

文件时间属性修改神器,绝了

有的时候需要对文件的时间属性进行修改,例如文件的创建时间、访问时间和或者最后的修改时间。 但是Windows系统里面自带的工具没有办法修改这些参数,需要借助第三方软件。今天给大家推荐两款非常强大的软件,可以帮助修改文件时间。 JD Design…

作者头像 李华
网站建设 2026/2/7 12:28:44

25.C++进阶:map|pair类型|构造|增删查|数据修改|迭代器|multimap|OJ

map系列的使⽤ map和multimap参考⽂档 参考文档 map类的介绍 map的声明如下,Key就是map底层关键字的类型,T是map底层value的类型,set默认要求Key⽀持⼩于⽐较,如果不⽀持或者需要的话可以⾃⾏实现仿函数传给第⼆个模版参数&am…

作者头像 李华
网站建设 2026/2/15 17:21:40

django微信小程序-基于python的服装穿搭推荐系统

目录摘要技术栈开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!摘要 随着移动互联网的快速发展,微信小程序凭借其轻量级、无需安装的特点成为用户获取服务的重要入口。基于Pytho…

作者头像 李华