3 篇博文含有标签「voice-agents」

供应商重新校准后，你的智能体所信任的转录置信度得分

2026年6月3日 · 阅读需 11 分钟

Software Engineer

语音智能体有一个门控机制。转录置信度高于 0.85 的任何内容都会直接进入规划步骤；低于该值的内容则会被路由给人工。该阈值是六个月前针对标记的真实客户通话语料库进行调优的，随后被固定在配置文件中并被遗忘。在六个月的时间里，它确实履行了职责。然后，转录服务提供商发布了模型升级——同样的 API、同样的响应形式、同样的延迟范围、同样记录在案的准确率——但在接下来的两周里，该智能体开始向错误的人授权电汇。

“给妈妈转账 50 美元”变成了“给 Tom 转账 5,000 美元”。新的转录结果返回的置信度为 0.91，远高于门控阈值。下游规划器看到了一个置信度很高的转录结果并据此执行。客户的申诉最终暴露了这个 Bug，但到那时，支持队列已经将一周内类似的事件作为欺诈纠纷过滤掉了。复盘分析将差距追溯到团队从未明确做出的一个决定：旧模型的 0.85 和新模型的 0.85 是同一个数字。

你的语音智能体将每一个转录错误都视为事实

2026年5月18日 · 阅读需 11 分钟

Tian Pan

Software Engineer

一名用户拨打你的保险语音代理，询问关于其免赔额（deductible）的问题。语音识别器听到了 "the duck tibble"。你的语言模型接收到了字符串 "the duck tibble"，发现它逻辑不通，于是要么提出了一个令人生疑的后续问题，要么——更糟糕的是——胡编乱造了一个关于并不存在的产品答案。用户挂断了电话。你的日志显示了一次成功的交互：音频输入，生成转录，产生回应，没有抛出错误。

这就是几乎每个生产环境中的语音代理都存在的隐蔽失败。语音转文本系统完成了它的工作——它产生了一个最优的猜测。语言模型完成了它的工作——它对收到的文本进行了推理。而 Bug 就存在于它们之间的鸿沟中，存在于一个将概率猜测重新标记为事实的交接过程中。

语音智能体轮次切换：重塑架构的 250 毫秒门槛

2026年5月10日 · 阅读需 13 分钟

Tian Pan

Software Engineer

研究跨语言话次转换（turn-taking）的语言学家们得出的结论惊人地一致：日常对话中说话者之间的间隙大约为 200 到 300 毫秒。任何更长的停顿都会被解读为犹豫、疏远或顺从；任何更短的停顿则会被视为打断。这个窗口是如此狭窄，以至于人类显然在对方说完之前就开始构思回复了 —— 倾听和计划是并行发生的，而非顺序进行。

错过这个窗口的语音智能体并不仅仅是让人觉得有点慢，而是让人觉得“不对劲”。在聊天产品中没人会注意到的 700 毫秒延迟，在语音交互中会让智能体显得迟钝、心不在焉，或者导致用户因失去耐心而打断它。1.5 秒的间隙足以让用户开始重复他们说过的话。满足这一时间预算并非简单的打磨工作 —— 它迫使开发者做出文本智能体从未面临过的架构选择，而这些选择重塑了整个技术栈的构建方式。

关于 Tian Pan