59 篇博文含有标签「ux」

AI 用户调研：在编写第一个 Prompt 之前，用户真正需要的是什么

2026年4月17日 · 阅读需 12 分钟

Software Engineer

大多数团队决定开发一个 AI 功能，然后询问用户：“你想要这个吗？”用户说想。功能发布了。三个月后，周活跃用户（WAU）停留在 12% 且不再增长。复盘时将其归咎于实现或采用，但真正的失败在写下第一行代码之前就发生了——那就是在那些看起来很周全但方法论上存在缺陷的用户调研阶段。

核心问题在于：用户无法准确预测他们对从未体验过的能力的偏好。这并非小瑕疵。一项关于 AI 写作辅助的研究发现，基于用户表达的偏好设计的系统仅达到了 57.7% 的准确率——实际上表现甚至不如那些完全忽略用户表达偏好的原始基准方案。你可以进行长达数周的用户调研冲刺，收集广泛的定性反馈，但最终做出的产品却没人使用——这并非尽管做了调研，而是在一定程度上正是因为调研的开展方式所致。

企业级 AI 能力发现问题

2026年4月17日 · 阅读需 11 分钟

Tian Pan

Software Engineer

你发布了 AI 功能。你将其内置于产品中。你编写了帮助文档。然而，六个月后，你最资深的企业用户仍然在将文本复制粘贴到 ChatGPT 中，以完成你的功能原本就能原生实现的事情。这不是培训问题。这是一个可发现性（discoverability）问题，也是当今企业软件中 AI 投资浪费最普遍的来源之一。

这种模式已有详尽的记录：49% 的员工表示他们在工作中从不使用 AI，74% 的公司难以从 AI 部署中扩大价值。但有趣的失败模式并不是那些明确抵制的后期采用者，而是那些每天打开你的产品、却从未意识到原本值得他们付费的 AI 功能就潜伏在光标一键之遥处的活跃用户。

魔法时刻问题：AI 功能引导为何失败，以及如何修复

2026年4月17日 · 阅读需 10 分钟

Tian Pan

Software Engineer

Slack 发现，交换了 2,000 条消息的团队以 93% 的比率转化为付费用户。这一洞见回头看似乎显而易见——活跃团队会留下来——但不那么显而易见的是工程层面的后果：Slack 围绕让团队达到这一消息数量来构建整个引导流程，而不是围绕功能演示或能力说明。他们通过使用 Slack 来教会用户 Slack。

AI 功能面临同样的问题，但更难。不存在"发送第一条消息"这样的等价物，因为能力层面是不可见的。面对空白提示框的用户对可能性没有任何直觉。这就是魔法时刻问题：你的产品拥有变革性能力，但用户在亲眼见到之前无法想象，而除非你设计好路径，否则他们永远看不到。

数据让这个问题变得紧迫。2024 年，17% 的公司放弃了大部分 AI 计划。2025 年，这个数字跳升至 42%——单年增长 147%。技术在进步；引导没有。

智能体加载状态难题：为 45 秒的 UX 深渊进行设计

2026年4月16日 · 阅读需 12 分钟

Tian Pan

Software Engineer

你的产品在第 10 秒到第 45 秒之间存在一个“空洞”，在这个时间段内，你设计的任何东西都不再起作用。用户在 10 秒左右就会放弃无响应的 UI —— Jakob Nielsen 在 90 年代就确定了这个阈值，现代的眼动追踪研究显示的偏差也不过一两秒。现代智能体（Agent）的工作通常需要 30 到 120 秒。多步规划、检索、几次工具调用，可能在最终输出前还要经过一轮反思 —— 延迟预算不再只是预算，而是一个巨大的深渊。

大多数团队在第一次发布智能体功能并查看会话录像时都会发现这一点。用户疯狂点击提交按钮。他们将查询粘贴到第二个标签页中。他们关闭窗口并从头开始重试，坚信系统已经崩溃。功能本身没问题，但等待过程出了问题。“加载动画出现”与“答案送达”之间的空白地带是 AI 产品设计中最被忽视的环节，而它正是决定用户认为你的智能体是聪明还是死机的关键。

AI 可靠性下限：为什么 80% 准确率比没有 AI 还糟糕

2026年4月16日 · 阅读需 10 分钟

Tian Pan

Software Engineer

大多数团队衡量 AI 功能质量时只问一个问题："它答对的频率有多高？"而更有用的问题其实是："答错的时候，摧毁信任的速度是否超过答对时积累价值的速度？"这两个问题的答案并不相同——只有后者才能告诉你究竟该不该发布。

存在一个可靠性下限，低于这条线的 AI 功能所造成的伤害，比完全没有该功能还要大。在这条线以下，用户在遭遇足够多的错误后会学会不信任 AI；而这种不信任会泛化——即便 AI 给出了正确答案，他们也会绕开它，最终彻底放弃使用。届时，你发布的不是一个部分有用的产品，而是一个披着功能外衣的转化率与留存率杀手。

TTFT 才是用户真正感知到的唯一延迟指标

2026年4月16日 · 阅读需 10 分钟

Tian Pan

Software Engineer

你的模型在 8 秒内生成了一段 500 词的响应，而竞品模型生成同样内容需要 12 秒。直觉上，你的产品应该更快。但如果你的第一个 Token 在 2.5 秒后才出现，而竞品的第一个 Token 在 400 毫秒就出现了，用户会觉得你的产品很慢——无论总生成时间如何。这就是 LLM 延迟的核心悖论：你的基础设施团队优化的指标（端到端生成时间、每秒 Token 数）并不是用户实际体验到的指标。用户真正感知的，是首 Token 时间（TTFT）。

TTFT 不是一个细节，而是用户判断你的 AI 功能是否响应灵敏的首要信号。忽视它，意味着你构建的是快速却体验迟钝的系统。

Token 预算作为产品约束：围绕上下文限制进行设计，而不是假装它们不存在

2026年4月16日 · 阅读需 11 分钟

Tian Pan

Software Engineer

大多数 AI 产品将上下文限制视为一个对用户隐藏的实现细节。这种决定在演示中看起来很简洁，但在生产环境中却是灾难性的。当用户在执行任务中途达到上限时，通常会发生以下三件事之一：请求抛出硬错误；模型因为丢失了关键的早期上下文而悄悄开始产生幻觉；或者产品重置会话并销毁所有积累的状态。对于一个你要求人们在实际工作中信任的产品来说，这些结果都是不可接受的。

Token 预算并不是一个可以敷衍了事的怪癖。它是一个核心产品约束，应该像内存限制在系统编程中那样，被纳入你的设计流程。交付可靠 AI 功能的团队已经不再假装这个天花板不存在了。

环境 AI 设计：当聊天界面是错误的抽象时

2026年4月15日 · 阅读需 9 分钟

Tian Pan

Software Engineer

大多数工程团队默认将 AI 功能构建为聊天界面。用户输入内容，模型做出响应。这种模式感觉很自然，因为它映射了人类的对话，而且工具链也让实现变得简单。但当你观察生产环境中的这些基于聊天的 AI 功能时，你经常会看到同样的功能失效：用户界面处于闲置状态，等待着那些太忙、太分心或根本不知道该问什么的用户。

聊天是一种“拉取”（pull）模式。由用户发起，AI 做出反应。对于任何产品中具有价值的 AI 工作的一个重要子集——监控、异常检测、工作流自动化、主动通知——“拉取”模式都是错误的形态。无论用户是否记得打开聊天窗口，这些工作都需要进行。

信任校准差距：为什么 AI 功能要么被忽视，要么被盲目服从

2026年4月15日 · 阅读需 10 分钟

Tian Pan

Software Engineer

你上线了一个 AI 功能。模型表现良好——你量化过它。精确率达 91%，召回率扎实，P99 延迟低于 400ms。三个月后，产品分析给出了一个令人沮丧的数字：高级用户已将其完全关闭，而另一批用户则不加修改地接受每一条建议，包括那些明显错误的。

这就是信任校准差距。它不是模型问题，而是设计问题——而且比大多数 AI 产品团队愿意承认的更为普遍。

信任校准曲线：用户如何学习（误）信任 AI

2026年4月12日 · 阅读需 11 分钟

Tian Pan

Software Engineer

大多数 AI 产品都以同样的方式走向终结。演示（Demo）很成功。测试用户赞不绝口。你发布了产品。然后，在大约三个月后，会话时长（session length）下降，功能闲置，你最活跃的早期用户开始绕过 AI，直接使用底层工具。

这不是模型质量问题，而是信任校准（trust calibration）问题。

“过度信任 → 失败 → 过度修正”的生命周期是 AI 产品采用率最可靠的杀手，而且如果你理解发生了什么，这几乎是完全可以预防的。研究已经很明确，失败模式是可预测的，设计模式也已经存在。大多数团队在看到留存曲线并想弄清楚出了什么问题之前，都会忽视这一切。

准确率阈值难题：当你的 AI 功能好到无法忽视却又差到无法信任

2026年4月10日 · 阅读需 11 分钟

Tian Pan

Software Engineer

麦当劳将其 AI 语音点餐系统部署到了 100 多个网点。在测试中，它达到了似乎可行的准确率—— 80% 左右。客户开始发布系统在未经提示的情况下向订单添加九杯甜茶、在冰淇淋上放培根，以及信誓旦旦地听错简单要求的视频。两年内，合作伙伴关系解散，该技术从所有网点移除。实验室的准确率是真实的，但现实世界的数据分布并非实验室所测试的那样。

这就是准确率阈值问题。存在一个区域——大约 70% 到 85% 的准确率——在这个区域内，AI 功能的精确度足以让它看起来有效，但在没有持续人工干预的情况下，其可靠性不足以真正发挥作用。团队之所以发布这个区域的产品，是因为数字看起来足够接近。用户会感到困惑，因为该功能刚好足够好到诱使他们产生依赖，又刚好足够差到在关键时刻失效。

关于 Tian Pan