跳到主要内容

42 篇博文 含有标签「ux」

查看所有标签

TTFT 才是用户真正感知到的唯一延迟指标

· 阅读需 10 分钟
Tian Pan
Software Engineer

你的模型在 8 秒内生成了一段 500 词的响应,而竞品模型生成同样内容需要 12 秒。直觉上,你的产品应该更快。但如果你的第一个 Token 在 2.5 秒后才出现,而竞品的第一个 Token 在 400 毫秒就出现了,用户会觉得你的产品很慢——无论总生成时间如何。这就是 LLM 延迟的核心悖论:你的基础设施团队优化的指标(端到端生成时间、每秒 Token 数)并不是用户实际体验到的指标。用户真正感知的,是首 Token 时间(TTFT)。

TTFT 不是一个细节,而是用户判断你的 AI 功能是否响应灵敏的首要信号。忽视它,意味着你构建的是快速却体验迟钝的系统。

Token 预算作为产品约束:围绕上下文限制进行设计,而不是假装它们不存在

· 阅读需 11 分钟
Tian Pan
Software Engineer

大多数 AI 产品将上下文限制视为一个对用户隐藏的实现细节。这种决定在演示中看起来很简洁,但在生产环境中却是灾难性的。当用户在执行任务中途达到上限时,通常会发生以下三件事之一:请求抛出硬错误;模型因为丢失了关键的早期上下文而悄悄开始产生幻觉;或者产品重置会话并销毁所有积累的状态。对于一个你要求人们在实际工作中信任的产品来说,这些结果都是不可接受的。

Token 预算并不是一个可以敷衍了事的怪癖。它是一个核心产品约束,应该像内存限制在系统编程中那样,被纳入你的设计流程。交付可靠 AI 功能的团队已经不再假装这个天花板不存在了。

环境 AI 设计:当聊天界面是错误的抽象时

· 阅读需 9 分钟
Tian Pan
Software Engineer

大多数工程团队默认将 AI 功能构建为聊天界面。用户输入内容,模型做出响应。这种模式感觉很自然,因为它映射了人类的对话,而且工具链也让实现变得简单。但当你观察生产环境中的这些基于聊天的 AI 功能时,你经常会看到同样的功能失效:用户界面处于闲置状态,等待着那些太忙、太分心或根本不知道该问什么的用户。

聊天是一种“拉取”(pull)模式。由用户发起,AI 做出反应。对于任何产品中具有价值的 AI 工作的一个重要子集——监控、异常检测、工作流自动化、主动通知——“拉取”模式都是错误的形态。无论用户是否记得打开聊天窗口,这些工作都需要进行。

信任校准差距:为什么 AI 功能要么被忽视,要么被盲目服从

· 阅读需 10 分钟
Tian Pan
Software Engineer

你上线了一个 AI 功能。模型表现良好——你量化过它。精确率达 91%,召回率扎实,P99 延迟低于 400ms。三个月后,产品分析给出了一个令人沮丧的数字:高级用户已将其完全关闭,而另一批用户则不加修改地接受每一条建议,包括那些明显错误的。

这就是信任校准差距。它不是模型问题,而是设计问题——而且比大多数 AI 产品团队愿意承认的更为普遍。

信任校准曲线:用户如何学习(误)信任 AI

· 阅读需 11 分钟
Tian Pan
Software Engineer

大多数 AI 产品都以同样的方式走向终结。演示(Demo)很成功。测试用户赞不绝口。你发布了产品。然后,在大约三个月后,会话时长(session length)下降,功能闲置,你最活跃的早期用户开始绕过 AI,直接使用底层工具。

这不是模型质量问题,而是信任校准(trust calibration)问题。

“过度信任 → 失败 → 过度修正”的生命周期是 AI 产品采用率最可靠的杀手,而且如果你理解发生了什么,这几乎是完全可以预防的。研究已经很明确,失败模式是可预测的,设计模式也已经存在。大多数团队在看到留存曲线并想弄清楚出了什么问题之前,都会忽视这一切。

准确率阈值难题:当你的 AI 功能好到无法忽视却又差到无法信任

· 阅读需 11 分钟
Tian Pan
Software Engineer

麦当劳将其 AI 语音点餐系统部署到了 100 多个网点。在测试中,它达到了似乎可行的准确率—— 80% 左右。客户开始发布系统在未经提示的情况下向订单添加九杯甜茶、在冰淇淋上放培根,以及信誓旦旦地听错简单要求的视频。两年内,合作伙伴关系解散,该技术从所有网点移除。实验室的准确率是真实的,但现实世界的数据分布并非实验室所测试的那样。

这就是准确率阈值问题。存在一个区域——大约 70% 到 85% 的准确率——在这个区域内,AI 功能的精确度足以让它看起来有效,但在没有持续人工干预的情况下,其可靠性不足以真正发挥作用。团队之所以发布这个区域的产品,是因为数字看起来足够接近。用户会感到困惑,因为该功能刚好足够好到诱使他们产生依赖,又刚好足够差到在关键时刻失效。