跳到主要内容

33 篇博文 含有标签「ux」

查看所有标签

飞行中转向:无需重启即可重定向长时运行的智能体

· 阅读需 11 分钟
Tian Pan
Software Engineer

观察一个开发者使用代理型 IDE 二十分钟,你会看到同样的小剧场上演三次。代理开始了一个长任务。在两次工具调用后,用户意识到他们想要一个函数式组件而不是类,或者想要 v2 接口而不是 v1,亦或是想用 Vitest 而不是 Jest 编写测试。他们手中只有一个杠杆:红色的停止按钮。他们按了下去。代理在编辑中途阵亡。他们复制并粘贴上一个提示词,加上修正,然后为前八分钟的工作支付了两次费用。

中止按钮是错误的交互设计。它将“我想调整计划”和“我想丢弃这次运行”视为同一种动作。在实践中,它们就像方向盘和弹射座椅一样迥异,而将两者混为一谈,正是为什么许多代理产品在任务耗时超过一屏输出时就显得脆弱不堪的原因。

AI 审计追踪是产品功能,而非合规勾选项

· 阅读需 10 分钟
Tian Pan
Software Engineer

麦肯锡 2025 年的调查发现,75% 的业务负责人正以某种形式使用生成式 AI —— 但近一半的人已经遭遇过严重的负面后果。这种差距并非模型质量问题,而是信任问题。而缩小这一差距的最快路径不是更多的评估(evals)、更好的提示词(prompts)或新的前沿模型,而是向用户准确展示智能体(agent)做了什么。

大多数工程团队将审计追踪视为事后才考虑的事情 —— 就像你为了 GDPR 合规或 SOC 2 认证而临时接入的东西,然后将其锁在只有运维人员(ops)查看的内部仪表盘中。这是错误的做法。当用户能看到智能体调用了哪个工具、检索了哪些数据,以及哪条推理分支生成了答案时,会发生三件事:采用率上升,支持工单减少,并且模型错误能比任何后端警报提早数天显现。

没人用的 AI 功能:团队为何交付了无人采用的能力

· 阅读需 10 分钟
Tian Pan
Software Engineer

一家中型项目管理公司的产品副总裁,花了三个季度的工程团队路线图来构建 AI 助手。上线六个月后,每周活跃使用率只有 4%。问她为什么要做:「竞争对手发布了一个,董事会问我们什么时候跟上。」这是一个用产品战略包装起来的恐慌决策——而且这种情况现在到处都是。

4% 不是个例。一个客户成功平台在四个月后,AI 生成通话摘要的采用率是 6%。一个物流 SaaS 添加了 AI 路线优化建议,点击率 11%,实际操作率 2%。一个 HR 平台推出了 AI 政策问答机器人,火了两周,然后跌落至 3% 后趋于平稳。这个规律已经稳定到可以命名了:发布 AI 功能,眼看它被忽视,十八个月后悄悄下线。

默认的解释是 AI 不够好。有时确实如此。但更多时候,模型没有问题——用户压根就没找到这个功能。

优雅的工具调用失败:你的 Agent UI 缺失的错误契约

· 阅读需 12 分钟
Tian Pan
Software Engineer

你见过的每一个 Agent 演示都以干净的结果收尾。工具调用返回了模型预期的数据,响应在两秒内到达,最终答案清晰准确。那是演示。生产环境则是另一回事。

在生产环境中,工具会超时。API 会返回 403,因为某个服务账户上周二被轮换了。第三方数据丰富端点返回 200,但响应体写着 {"status": "degraded", "data": null}。OAuth 令牌在周六凌晨 3 点过期。这些不是边缘案例——这是任何与真实世界交互的 Agent 的正常运行状态。失败模式是可预见的。问题在于,大多数 Agent 架构将它们视为事后补救,而大多数 Agent UI 根本没有向用户传达这些失败的词汇。

延迟感知差距:为什么3秒的流式响应比1秒的批量响应感觉更快

· 阅读需 12 分钟
Tian Pan
Software Engineer

你的用户没有秒表,他们只有感觉。而这些感觉与时钟现实的偏差,对你构建AI界面的方式至关重要。一个逐字出现、持续三秒的响应,用户普遍感觉比一秒后突然全部出现的批量响应更快——尽管批量系统在客观上更快。这不是非理性的,也不是人类认知的缺陷,而是一种有据可查的感知现象。如果你在构建AI产品时没有考虑这一点,你就是在为错误的指标做优化。

本文将剖析延迟感知背后的心理学、真正预测用户满意度的指标、利用这些感知特性的前端模式,以及何时流式传输会带来比价值更多的复杂性。

为什么用户会忽略你花了三个月构建的 AI 功能

· 阅读需 12 分钟
Tian Pan
Software Engineer

你的团队花了三个月时间将 LLM 集成到产品中。模型运行正常,延迟在可接受范围内,演示效果也非常棒。你上线了产品,然后眼睁睁地看着使用率指标停留在 4% 不动了。

这是一个典型的过程。大多数 AI 功能的失败并非发生在模型层面,而是在采用(adoption)层面。其根本原因并非技术问题,而是一系列围绕可发现性(discoverability)、信任和习惯养成而做出(或未做出)的产品决策。理解为什么采用率会失败,以及实际上应该衡量和改变什么,是交付“有用 AI”的团队与仅交付“令人印象深刻的演示”的团队之间的分水岭。

认知负载倒置:为什么 AI 建议让你感觉有帮助却精疲力竭

· 阅读需 10 分钟
Tian Pan
Software Engineer

AI 生产力研究中有一个几乎无人提及的数字:39 个百分点。一项针对有经验开发者的研究中,参与者预测 AI 工具会让他们快 24%。完成任务后,他们仍然认为自己快了 20%。实际测量结果:他们慢了 19%。感知差距是 39 个百分点——而且每次迭代、每次代码审查、每个交付的功能都在累积。

这就是认知负载倒置。AI 工具擅长卸载廉价的认知工作——编写语法正确的代码、起草模板、建议函数名——同时产生了一类更难的认知工作:对不确定输出的持续评估。你并没有消除认知努力,而是将简单的一半自动化了,然后把困难的一半留给了自己。

对话设计师在 AI 产品质量中的隐形角色

· 阅读需 11 分钟
Tian Pan
Software Engineer

大多数工程团队把系统提示词当作配置文件对待——需要快速迭代的技术字符串,存储在环境变量中,部署时的仪式感和修改一个超时值差不多。系统提示词有内联注释。错误提示一条也没有。能力披露就是产品经理在上线当天往 Notion 文档里打的那段话。

这正是整整一类 AI 产品故障的根源——这类问题不会出现在你的评估套件里。模型回答了问题,延迟没有问题,JSON 验证通过了。但用户在三次会话之后就停止信任这款产品,周活跃用户曲线再也没能回升。

缺失的那门学科叫对话设计。它影响输出质量的方式,大多数工程监控在架构上是盲目的。

AI 界面中无人关注的可访问性鸿沟

· 阅读需 9 分钟
Tian Pan
Software Engineer

大多数 AI 团队都会对其落地页进行无障碍审计。但几乎没有人对聊天界面本身进行审计。这种差距并非源于懒惰 —— 而是因为工具根本不存在。WCAG 2.2 没有针对流式内容的成功标准,没有针对非确定性输出的标准,也没有针对逐个 token 传输的指南。这意味着目前每个将响应流式传输到 <div> 中的 AI 产品都处于合规灰色地带,同时破坏了很大一部分用户的体验。

这并不是一个微不足道的边缘情况。盲人和低视力用户报告称,寻求信息是他们使用 AI 的首要场景。患有诵读障碍、ADHD 和认知障碍的用户正积极尝试使用 AI 工具来减轻阅读负担 —— 而默认的实现模式却实际上让情况变得更糟。

沉默的回归:如何在不失去用户信任的情况下传达 AI 行为变化

· 阅读需 10 分钟
Tian Pan
Software Engineer

你的高级用户就是你的金丝雀。当你发布新的模型版本或更新系统提示词时,整体评估指标会向上走——任务完成率提升,幻觉评分下降,A/B 测试宣告胜利。随后,你最老练的用户开始提交 bug 报告:"以前它就直接做 X,现在先给我说一堆。""格式变了,导致我的下游解析器报错了。""我没法让它保持角色了。"他们不是在臆想。你发布了一次回归,只是仪表盘里没有显示出来。

这正是 AI 产品开发的核心悖论:受行为漂移伤害最深的用户,恰恰是那些在理解系统特性上投入最多的人。他们围绕特定的输出模式构建了工作流,他们学会了哪些提示词能可靠地触发哪些行为。当你更换模型时,不只是发布了更新——你悄悄地让他们数月的校准工作失效了。

AI 用户调研:在编写第一个 Prompt 之前,用户真正需要的是什么

· 阅读需 12 分钟
Tian Pan
Software Engineer

大多数团队决定开发一个 AI 功能,然后询问用户:“你想要这个吗?”用户说想。功能发布了。三个月后,周活跃用户(WAU)停留在 12% 且不再增长。复盘时将其归咎于实现或采用,但真正的失败在写下第一行代码之前就发生了——那就是在那些看起来很周全但方法论上存在缺陷的用户调研阶段。

核心问题在于:用户无法准确预测他们对从未体验过的能力的偏好。这并非小瑕疵。一项关于 AI 写作辅助的研究发现,基于用户表达的偏好设计的系统仅达到了 57.7% 的准确率——实际上表现甚至不如那些完全忽略用户表达偏好的原始基准方案。你可以进行长达数周的用户调研冲刺,收集广泛的定性反馈,但最终做出的产品却没人使用——这并非尽管做了调研,而是在一定程度上正是因为调研的开展方式所致。

企业级 AI 能力发现问题

· 阅读需 11 分钟
Tian Pan
Software Engineer

你发布了 AI 功能。你将其内置于产品中。你编写了帮助文档。然而,六个月后,你最资深的企业用户仍然在将文本复制粘贴到 ChatGPT 中,以完成你的功能原本就能原生实现的事情。这不是培训问题。这是一个可发现性(discoverability)问题,也是当今企业软件中 AI 投资浪费最普遍的来源之一。

这种模式已有详尽的记录:49% 的员工表示他们在工作中从不使用 AI,74% 的公司难以从 AI 部署中扩大价值。但有趣的失败模式并不是那些明确抵制的后期采用者,而是那些每天打开你的产品、却从未意识到原本值得他们付费的 AI 功能就潜伏在光标一键之遥处的活跃用户。