3 篇博文含有标签「real-time」

视频会议中的数字人：构建用于视频会议的实时对话头像 AI

2026年5月2日 · 阅读需 13 分钟

Software Engineer

拥有面孔的语音智能体并非简单的“带脸的语音助手”。它是一个同步视频 AI 系统，当人类第一次看到口型落后于音频三帧，并下意识地（即使无法准确说出原因）判定屏幕上的东西是假的时候，这种差异就显现出来了。那些构建了 300 毫秒语音流水线，然后又在末尾强行塞入一个渲染模型的纯语音团队，刚刚继承了一个他们在路线图中未曾预料到的实时多模态问题。

这个门槛并不宽松。在音视频偏移低于约 45 毫秒时，观众会认为是完美同步。一旦音频领先超过 125 毫秒或音频滞后超过 45 毫秒，大脑就会将这种不匹配标记为错误，即使观众无法指出具体原因。在一个数字人必须同时倾听、思考、说话和渲染的对话循环中——且在你和用户之间还隔着网络——音频输出和渲染面孔之间没有任何余地来容纳拙劣的衔接。

为什么你的语音智能体显得很没礼貌：话轮转换是你从未记录过的延迟预算

2026年4月27日 · 阅读需 12 分钟

Tian Pan

Software Engineer

当你第一次发布语音智能体（voice agent）时，你会听到两个相同的抱怨：“它打断了我”和“它感觉很不礼貌”。这两者其实是同一个 Bug。智能体并不是真的没礼貌——它只是在运行一个你从未明确记录过的延迟预算（latency budget）。聊天机器人那种“在输入完成后响应”的直觉，在语音场景下会产生一种挫败感：就像在和一个人聊天，他总是打断你的话，又在不该沉默的时候突然安静。

人类在对话中的轮换（turn-taking）通常发生在约 100 到 300 毫秒的窗口内，这在所有已测量的语言中都是一致的。中位数 200ms 的说话者间隙不是一个目标，而是一个人类校准的基准。任何更慢的反应都会被解读为困惑，任何更快的反应都会被解读为打断。如果语音智能体没有明确模拟这种节奏，每一轮对话都会掉进这两个坑里的其中一个。

解决方案不是用更快的模型，而是承认语音 AI 是一个软实时系统（soft real-time system），其预算由人类对话的物理特性决定，并在发布前记录下这个预算。

语音智能体并非带麦克风的聊天机器人：半双工税

2026年4月23日 · 阅读需 12 分钟

Tian Pan

Software Engineer

一个在所有转写层级基准测试（benchmark）中得分完美的语音智能体，在实际通话中可能仍然让人感觉有些微妙的不对劲。文字没错，推理也没错。仪表盘上的端到端延迟显示为 520ms，这正是预期的目标。然而，电话另一端的人却不断卡顿、抢话、重说，甚至提前挂断。团队发布了更好的模型，数据提升了，但体感依然没有改善。

究其原因，与模型说了什么几乎无关，而与它何时说话几乎全盘相关。语音并非仅仅是附带了音频的文本。人类的对话运行在一个严密的半双工（half-duplex）协议之上，包含插话（barge-in）、反馈信号（backchannel）和重叠语音，其时间预算是以毫秒计算的。大多数语音智能体的问题，在解决了第一周的幻觉修复后，本质上都是轮次协商（turn-negotiation）问题。而轮次协商是架构层面的问题——你无法通过提示词工程（prompting）来解决它。

关于 Tian Pan