跳到主要内容

延迟感知差距:为什么3秒的流式响应比1秒的批量响应感觉更快

· 阅读需 12 分钟
Tian Pan
Software Engineer

你的用户没有秒表,他们只有感觉。而这些感觉与时钟现实的偏差,对你构建AI界面的方式至关重要。一个逐字出现、持续三秒的响应,用户普遍感觉比一秒后突然全部出现的批量响应更快——尽管批量系统在客观上更快。这不是非理性的,也不是人类认知的缺陷,而是一种有据可查的感知现象。如果你在构建AI产品时没有考虑这一点,你就是在为错误的指标做优化。

本文将剖析延迟感知背后的心理学、真正预测用户满意度的指标、利用这些感知特性的前端模式,以及何时流式传输会带来比价值更多的复杂性。

为什么感知延迟与实际延迟存在偏差

人对时间的感知既不线性也不准确。交互系统研究一贯表明,没有反馈的等待比有进度信号的等待感觉明显更长,即使时钟时间完全相同。其中的机制值得深入理解:

进度可见性是主要驱动因素。当token出现在屏幕上时,大脑会将系统登记为活跃且正在运作。动画本身成为反馈循环。相比之下,带加载圈的空白屏幕让用户接收不到任何信号——无法判断是否有进展、进展到哪一步、或者是否出了问题。这种模糊性放大了焦虑,进而放大了感知等待时间。

部分价值交付是第二种机制。通过流式传输,用户可以在响应完成之前就开始阅读。对于一个持续3秒、生成200词回答的流式响应,阅读速度正常的用户可能在生成完成之前就已读完前50个词。他们在计算过程中并行提取价值,使总时间感觉更短——因为这是有价值的时间,而非空闲时间。

控制感更为微妙,但在实证上同样显著。人机交互研究表明,将自己视为交互主动参与者的用户,在延迟期间比被动旁观者感受到更少的挫折感。流式响应创造了一种感觉:系统正在实时为用户构建内容,而不是消失后带着成品回来。这种区别听起来像哲学问题,但对用户体验的影响是具体而实在的。

实际结论:优化总生成时间往往不如优化用户在生成过程中的感知重要。在计算时就持续交付价值的系统,会胜过计算更快但隐藏过程的系统。

真正预测用户体验的指标

AI行业已经收敛到三个延迟指标,你应该根据工作负载来决定优化哪一个:

**首token时间(TTFT)**衡量从提交请求到第一个输出token出现之间的间隔。这是决定对话式AI用户满意度的关键指标。研究表明,p95 TTFT低于500ms感觉流畅;低于200ms感觉即时;超过1.5秒则会被感知为迟钝。TTFT完全由预填充时间决定——即在任何输出开始之前处理完整输入的计算成本——这个成本随提示词长度增加而增长。长系统提示和大量上下文窗口会显著增加TTFT。

**每输出token时间(TPOT)**衡量第一个token之后,连续token之间的平均间隔。计算公式为(E2E – TTFT) / (总输出Token数 - 1)。高且稳定的TPOT产生流畅的流式传输,感觉就像人在打字。高但不稳定的TPOT则产生突发式输出——token成批到达——用户发现这比均匀的慢速更令人分心。这里稳定性与速度同样重要。

端到端(E2E)延迟是从输入到最终输出的总时间。这个指标在批量工作负载中占主导地位——用户提交一份长文档后一小时才回来——但对于用户正在主动观看响应形成的对话式界面来说几乎无关紧要。

一个常见错误:团队在TTFT才是满意度驱动因素的场景中优化每秒token数(TPS)。TPS对高吞吐量长文本生成很重要——代码生成、文档摘要、报告创建。对于简短的对话轮次,快速TTFT比最大化token吞吐量重要得多。混淆这两者会导致基础设施决策无法改善用户体验。

还有一个值得注意的基准警告:TTFT计算在各框架间并不标准化。一些框架将TTFT排除在TPOT计算之外;另一些则包含在内。在跨工具比较数字之前,请务必验证方法论。

前端模式:利用感知差距

鉴于感知与现实存在偏差,工程任务变成了管理用户在生成过程中的体验,而不仅仅是最小化生成时间。

骨架屏优于加载圈。 通用加载圈现在已被认为是AI界面中的UX反模式。骨架屏——形状类似将要出现内容的占位UI元素——在对照研究中,对于相同的等待时间,感觉比加载圈快约20%。机制很简单:骨架屏设定了对即将到来内容的预期,并在内容出现之前给用户提供布局的心理模型。内容从无到有突然出现的认知冲击,被平滑的渐进式显示所取代。对于AI聊天界面,这意味着用户提交查询后立即显示消息气泡轮廓,而不是等到第一个token到达才显示任何内容。

预填充期间的打字指示器。 提交与首token之间的间隔对用户来说可能感觉像是虚空,特别是对于需要大量预填充计算的长提示词。打字指示器——动画省略号、"思考中……"状态、流式状态消息——将这段死亡时间转化为感知到的活动。这不是装饰性的;它直接解决了让等待感觉更长的心理不确定性。

长响应的渐进式披露。 不是所有内容都需要以相同粒度流式传输。对于结构化响应——列表、代码块、多节文档——展示连贯的块比逐token流式渲染不完整句子效果更好。流式传输完整的思想,短暂暂停让视觉处理,然后流式传输下一个。这需要更复杂的前端状态管理,但能产生明显更好的阅读体验。

交互模式的乐观UI。 当用户执行需要AI往返处理的操作时——编辑文档、重新运行提示词——立即显示推测性结果并在完成后进行对账,可以将感知延迟降至接近零。风险在于乐观状态与实际结果可能存在偏差,需要一次可见的修正。设计决策是:成功的乐观结果频率是否值得偶尔出现的突兀修正。对于高置信度操作(重新格式化、翻译),通常是值得的。

流式传输基础设施:SSE与WebSockets

传输层的选择影响运营复杂性和延迟特性。

加载中…
Let's stay in touch and Follow me for more thoughts and updates