在实时语音 Agent 落地里,最危险的故障往往不是识别错一个词,而是系统把一句还没说完的话,当成已经确认的动作。用户只是短暂停顿,工具层却已经开始查票、写 CRM 或触发工单。🔊 这种误触发一旦进入外部系统,修复成本比补一句澄清高得多。
很多团队会把锅甩给模型“理解不稳”,但线上日志通常暴露的是另一条链路:VAD 先切段,ASR 持续吐 partial transcript,调度器又把 partial 当 final 用。🧭 结果不是模型太激进,而是 turn boundary 根本没有被当成系统级提交条件。
一、误触发通常不是识别错误,而是提交时机错误
一条实时语音链路至少包含 4 个连续事件:音频帧进入、VAD 判定说话中、ASR 输出 partial、系统决定是否把文本提交给 Agent。⚠️ 只要这 4 步里有一步把“猜测”当成“确认”,工具就会被提前触发。
典型误区是把partial transcript直接喂给 Planner。用户说“帮我查一下明天从北京到上海的……高铁”,在 “到上海的” 这里停顿半秒,系统可能已经触发了搜索。🛠️ 后续补出的 “高铁票二等座” 已经来不及影响第一次工具调用。
| 环节 | 常见错误 | 线上后果 |
|---|---|---|
| VAD | 静音阈值过低 | 呼吸声、顿挫被切成新轮次 |
| ASR partial | 把增量文本当最终文本 | 提前触发工具 |
| Planner | 无提交门槛 | 同一轮产生多次动作 |
| Tool Runtime | 不支持撤销 | 错调用写入外部系统 |
[外链图片转存中…(img-AC7L6Aop-1777439601505)]
二、稳定方案的关键,是把 Turn Boundary 升级为仲裁层
生产里更稳的做法,是在 ASR 和 Agent 之间增加一个turn arbiter。✅ 它不直接关心语义对不对,而是决定“这段文本是否已经具备提交资格”。只有仲裁通过,Planner 才能看到 final text。
核心状态机通常只要 3 个条件:speech_end_ms、final_transcript_seen、tool_safe_to_commit。当用户停顿超过阈值、ASR 给出 final 或高置信稳定片段、且当前没有更高优先级的 barge-in 时,系统才提交本轮文本。📌 这一步比换更强模型更管用,因为它先修正了系统边界。
classTurnArbiter:defshould_commit(self,vad_gap_ms,has_final,stable_tokens,interrupted):ifinterrupted:returnFalseifhas_finalandvad_gap_ms>=320:returnTrueifstable_tokens>=8andvad_gap_ms>=480:returnTruereturnFalse上面这类规则不复杂,但能直接砍掉大量“半句触发”。🚦 实际配置里,中文对话常把首轮提交阈值放在320~500 ms,涉及下单、写库、发消息这类高风险工具时,再额外要求 final transcript 或二次确认。
三、真正要看的不是 WER,而是误提交率
很多团队只盯着 WER,结果识别准确率不错,业务事故还是很多。📉 对语音 Agent 来说,更关键的观测项是:premature_commit_rate、tool_abort_rate、turn_reopen_rate和user_barge_in_after_commit_ms。这些指标才能说明系统有没有把一句话切对。
经验上,如果premature_commit_rate高于1.5%,外部工具误触发会明显上升;若turn_reopen_rate持续偏高,往往说明 VAD 阈值太激进或 partial 稳定策略过早。🧪 比起继续压榨 ASR 模型,先调仲裁层通常能更快把投诉打下来。
[外链图片转存中…(img-NgzCF1xL-1777439601507)]
四、趋势判断:语音 Agent 会先卷仲裁,再卷模型
笔者认为,未来 3 到 6 个月,语音 Agent 的核心竞争点不会只是更低的 ASR 延迟,而是谁先把speech event -> text event -> action event这三层边界彻底打通。🎯 没有提交仲裁,再强的模型也会被上游噪声拖进误操作。
对工程团队来说,优先级很明确:先建立 turn arbiter、工具风险分级和可撤销调用,再谈更激进的实时感知体验。🤝 真正稳定的语音 Agent,不是“听得快”,而是“知道什么时候该等一句”。
如果已经在线上接入实时转写,不妨回看一下:你们现在阻止误触发,靠的是模型猜对,还是系统真的定义了提交边界?💡 这类问题越早补,后面接支付、工单、CRM 这类高风险工具时越不容易翻车。