news 2026/3/13 6:31:47

语音助手减少不必要澄清提问的技术突破

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
语音助手减少不必要澄清提问的技术突破

减少语音助手不必要的澄清性问题

如果两个人在嘈杂的环境中交谈,一方没有听清或未完全理解对方的意思,自然的反应是请求澄清。语音助手也是如此。为了避免基于不准确或不完整的理解采取可能错误的操作,语音助手会提出后续问题,例如询问设定的计时器是15分钟还是50分钟。

通常,提出此类问题的决定基于机器学习模型的置信度。如果模型预测出多个置信度高的竞争性假设,澄清性问题可以帮助从中做出选择。

然而,对某中心语音助手数据的分析表明,77%的情况下,即使其他备选假设也获得了较高的置信度分数,模型排名第一的预测也是正确的。在这些情况下,目标是减少提出的澄清性问题数量。

在某会议上,展示了一项工作,旨在通过训练一个机器学习模型来判断何时真正需要澄清,从而减少不必要的后续问题。

HypRank 模型

在大多数语音助手中,用户话语的声学信号首先传递给自动语音识别模型,该模型生成多个关于用户所说内容的假设。排名靠前的假设然后传递给自然语言理解模型,该模型识别用户的意图(用户希望执行的操作,例如播放视频)和话语的槽位(意图应作用于的实体,例如视频标题,其值可能是“哈利·波特”)。

在论文中考虑的场景下,由ASR和NLU模型生成的假设会传递给第三个模型,称为HypRank(假设排名器)。HypRank结合了ASR、意图分类和槽位填充的预测及置信度分数,以及上下文信号(例如特定用户启用了哪些技能),以产生不同假设的总体排名。

使用这种方法,有三个可能的歧义来源:ASR分数的相似性、意图分类分数的相似性以及整体HypRank分数的相似性。在传统方案中,这些分数中任何一个足够小的差异都会自动触发澄清性问题。

澄清与否

在新方法中,训练了另一个机器学习模型来决定是否需要提出澄清性问题。除了ASR、NLU或HypRank分数的相似性之外,该模型还考虑另外两个歧义来源:信噪比和被截断的话语。被截断的话语是指以冠词、某些所有格或介词结尾的话语。例如,“Alexa, play ‘Hello’ by” 就是一个被截断的话语。

作为输入,该模型接收排名最高的HypRank假设;任何在其他三项指标上分数足够相似的其他假设;SNR;一个表示该请求是否为重复请求的二元值;以及指示五种歧义来源中哪些适用的二元值。

输入假设的数量可能不同,具体取决于适用的歧义类型。因此,除了排名第一的假设之外,所有其他假设的向量表示被合并形成一个摘要向量,然后与其他输入的向量表示连接起来。连接后的向量传递给分类器,分类器决定是否发出澄清性问题。

实验

据所知,目前没有现有的数据集能提供根据准确性标记的多个ASR和NLU假设。因此,为了训练模型,使用了由某中心同事去年在某研讨会上展示的模型自动注释的数据。

他们的模型是在手动注释的数据和根据客户反馈标记的数据组合上训练的,这些客户在Alexa交互后被特别询问是否对结果满意。使用该模型来标记更多话语,无需人工参与。

由于数据集中的所有样本至少具有一种歧义类型,基线方法是在每种情况下都提出澄清性问题。该方法的假阴性率为零(在必要时从不遗漏澄清性问题),但可能有较高的假阳性率。新方法可能会增加假阴性率,但F1分数的提高意味着它在假阴性和假阳性之间取得了更好的平衡。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/11 16:58:56

免费剧本创作神器:Trelby完整使用指南

免费剧本创作神器:Trelby完整使用指南 【免费下载链接】trelby The free, multiplatform, feature-rich screenwriting program! 项目地址: https://gitcode.com/gh_mirrors/tr/trelby 在创意写作的世界里,专业剧本创作工具Trelby为编剧们提供了完…

作者头像 李华
网站建设 2026/3/13 6:31:27

虚拟主播必备神器:IndexTTS 2.0一键生成高相似度定制语音

虚拟主播必备神器:IndexTTS 2.0一键生成高相似度定制语音 在虚拟主播和数字人内容爆发的今天,一个核心问题始终困扰着创作者:如何让AI声音不仅“像人”,还能“有情绪”、“合节奏”、“随心变”?过去我们或许只能依赖专…

作者头像 李华
网站建设 2026/3/5 19:49:14

Dify Next.js 安全更新全解析:3大关键补丁你必须立即部署

第一章:Dify Next.js 安全更新全解析Dify 作为基于 Next.js 构建的现代化 AI 应用开发平台,其前端架构的安全性直接影响用户数据与系统稳定性。近期发布的安全更新针对潜在的 XSS 攻击、CSRF 漏洞以及服务端敏感信息泄露问题进行了全面加固,开…

作者头像 李华
网站建设 2026/3/13 4:25:59

Screenbox媒体播放器深度解析:如何构建智能化个人媒体中心

在数字媒体内容日益丰富的今天,高效管理个人影音资源已成为现代用户的迫切需求。Screenbox作为一款基于Universal Windows Platform的媒体播放器,凭借其LibVLC核心引擎和智能化功能设计,为用户提供了全新的媒体管理体验。这款播放器不仅支持多…

作者头像 李华
网站建设 2026/3/13 6:11:50

QCMA强力指南:如何让PS Vita内容管理变得如此简单?

QCMA强力指南:如何让PS Vita内容管理变得如此简单? 【免费下载链接】qcma Cross-platform content manager assistant for the PS Vita (No longer maintained) 项目地址: https://gitcode.com/gh_mirrors/qc/qcma 你是不是也曾为PS Vita的内容管…

作者头像 李华
网站建设 2026/3/1 8:11:45

揭秘Dify与React 19.2.3集成难题:如何实现无缝迁移与性能优化

第一章:Dify与React 19.2.3集成背景解析随着前端框架的持续演进,React 19.2.3 引入了多项关键更新,包括服务端组件支持、响应式状态管理优化以及更高效的渲染机制。这些特性为构建智能化应用提供了坚实基础。在此背景下,Dify——一…

作者头像 李华