7 篇博文含有标签「ai-ux」

“重新生成”按钮作为一项产品决策：当“再生”功能让用户不再信任你

2026年5月14日 · 阅读需 12 分钟

Software Engineer

重新生成（reroll）按钮是 AI 产品中最容易发布的 UX 交互功能。一个图标，一个处理器，在下一个请求中加一个清除缓存（cache-busting）的标志位。这似乎是对非确定性系统显而易见的妥协 —— 模型是随机的，所以让用户重新采样。两周的工程开发，发布到正式版（GA），然后开始下一个功能的开发。

六个月后，团队查看会话日志，发现中位深度用户每条回复会点击 2.4 次重新生成。第 90 百分位的用户会点击 8 次。有些用户已经完全不再阅读第一条回复 —— 他们发送提示词后，立即重新生成两次，然后才开始评估这三个草稿中哪一个最不差。团队发布的不是一个重新生成按钮，而是一种行为重塑，教会了他们的用户把模型当作一台老虎机。

对话重置按钮：在不丢失 Artifacts 的情况下重新开始的 UX 模式

2026年5月2日 · 阅读需 10 分钟

Tian Pan

Software Engineer

现代 AI 产品中最反用户的按钮，偏偏也是最不可或缺的那一个。在对话进行到第 40 轮左右时，智能体（agent）已经陷入了错误的假设，语气开始跑偏，每一次新的交互都在让答案变得更糟而不是更好。用户知道该怎么做：清空重来。他们点击“新对话（New Chat）”——眼睁睁看着进行到一半的计划、草拟的四份文档，以及花了 20 分钟调优的提示词，随着那些被污染的历史记录一同烟消云散。

于是，他们不再使用重置按钮。他们打开第二个标签页，手动复制粘贴产出物，同时维持着那个已经崩坏的对话，把它当成一个不敢关闭的墓地。这种仪式——用手动复制粘贴来绕过本应发挥作用的按钮——是一个聊天产品对其数据模型有误所发出的最清晰信号。

置信度描述而非评分：为什么 0.87 的徽章无法打动任何人

2026年4月28日 · 阅读需 12 分钟

Tian Pan

Software Engineer

产品团队在每个 AI 建议旁边都附带了一个置信度徽章。≥85% 为绿色，60–84% 为黄色，低于此数值为红色。六周后，他们运行了一次 A/B 测试，发现在任何阈值下用户行为都没有变化。置信度为 0.92 的误报被接受的比例与置信度为 0.61 的误报完全相同。团队的直觉是调整校准——拟合一个温度缩放层（temperature scaling layer），重新生成徽章，再次运行 A/B 测试。数据变了，但行为没变。

问题不在于模型没有校准好，尽管它几乎肯定没校准好。问题在于校准后的概率是错误的输出。用户可以据此行动的信号不是模型“有多确定”，而是“模型具体没检查什么”。一个 0.87 的徽章无法告诉用户任何可以验证的信息。“我对地址相当有信心，但我还没有核对单元号”则准确地告诉了他们该看哪里。

知识截止期是 UX 界面，而非脚注

2026年4月27日 · 阅读需 14 分钟

Tian Pan

Software Engineer

模型有知识截止日期。用户不知道它是什么。产品在几乎所有情况下都不会告诉用户。当用户问了一个正确答案在三个月前已经改变的问题时，助手会给出一个言之凿凿的错误答案——这并非因为模型失效了，而是因为产品从未提供一种方式来标记这种信息鸿沟。你与用户之间的信任契约是隐性的、不对称的，并且每当世界发生变化而你的 UX 假装没有变化时，这种契约就会被悄然打破。

主流模式是将截止日期视为一个注脚：一段埋藏在帮助中心里的披露文本、一个无人阅读的 /about 页面，或者在第一周就被关闭的一次性工具提示。这种定位是一个 bug。知识截止日期不像“上下文长度”那样是模型的一个属性。它是一个 UX 界面——经过工程化、设计和演进——将其视为次要因素，会导致交付的产品在用户无法审计的语调下，围绕自身的无知进行编造。

信任天花板：产品团队忽视的自主性变量

2026年4月27日 · 阅读需 12 分钟

Tian Pan

Software Engineer

每个 Agent 功能都有一个自主性上限，一旦超过这个上限，用户就会开始检查工作、进行干预，或者彻底放弃该功能。这个上限并不是你模型的属性，而是由你的用户、领域以及出错成本决定的。它不会因为发布演示稿说它该移动就移动。大多数团队都是通过惨痛的教训才发现这个天花板的：发布的功能被设计为完全自主，但采用率却停滞在“Agent 建议，人类批准”的阶段，指标把责任推给模型，而接下来的一个季度则花在调整一个从未成为瓶颈的旋钮上。

这个上限的形状在各种产品中都足够一致，以至于它值得拥有一个名字。Anthropic 自己关于 Claude Code 的使用数据显示，新用户在约 20% 的时间内使用完全自动批准，只有在经过大约 750 次会话后，这一比例才会攀升至 40% 以上。PwC 2025 年对 300 名高管的调查发现，79% 的公司正在使用 AI Agent，但大多数生产部署都运行在“协作伙伴”或“顾问”级别——即模型提议，人类决策——而不是营销所暗示的全自主层级。这些数字背后的故事并不是用户胆小，而是信任是根据可挽回错误的成本进行校准的，而你的产品几乎肯定没有以用户需要的方式让他们看到、撤销或限制这些成本。

输出承诺问题：为什么流式自我纠正比原始错误更损害用户信任

2026年4月23日 · 阅读需 12 分钟

Tian Pan

Software Engineer

用户向你的智能体提问。Token 开始流式输出。写到第三句时，模型写道“实际上，让我重新考虑一下——”并转向一个不同的答案。修改后的答案更出色。用户却关闭了标签页。

这就是输出承诺问题（Output Commitment Problem），它是已发布 AI 产品中被低估得最严重的 UX 失败案例之一。工程师思维将自我修正视为一项特性——模型注意到了自己的错误，这意味着系统正按预期运行。而用户感知思维则将其视为一场灾难——产品现场演示了其最初自信的断言是错误的。这两种解读都是正确的，且它们本身无法调和。

核心的不对称性在于，流式传输让思考过程变得清晰可见，而清晰的思考就是可审计的思考。一个静默地产生幻觉然后给出简洁最终答案的模型看起来很专业。而同一个模型，如果流式输出每一个不成熟的想法，看起来就像是在胡言乱语。答案的质量是相同的，但感知却截然不同。

Temperature 是产品决策，不是模型旋钮

2026年4月19日 · 阅读需 10 分钟

Tian Pan

Software Engineer

每当一个新的 LLM 功能上线，总会有人问："我们该用多少 temperature？"答案几乎千篇一律："不知道，留着 0.7 吧。"然后对话结束，没有人再碰这个值。

这是一个用默认值做出的产品决策。Temperature 不只是控制模型听起来有多"随机"——它决定了用户是否信任输出、是否会重新运行查询、是否感到被帮助或被淹没。把它调好比大多数团队意识到的更重要；调错了也很难诊断，因为失败的表现看起来像是模型行为差，而不是配置差。

关于 Tian Pan