907 篇博文含有标签「insider」

没人用的 AI 功能：团队为何交付了无人采用的能力

2026年4月20日 · 阅读需 10 分钟

Software Engineer

一家中型项目管理公司的产品副总裁，花了三个季度的工程团队路线图来构建 AI 助手。上线六个月后，每周活跃使用率只有 4%。问她为什么要做：「竞争对手发布了一个，董事会问我们什么时候跟上。」这是一个用产品战略包装起来的恐慌决策——而且这种情况现在到处都是。

4% 不是个例。一个客户成功平台在四个月后，AI 生成通话摘要的采用率是 6%。一个物流 SaaS 添加了 AI 路线优化建议，点击率 11%，实际操作率 2%。一个 HR 平台推出了 AI 政策问答机器人，火了两周，然后跌落至 3% 后趋于平稳。这个规律已经稳定到可以命名了：发布 AI 功能，眼看它被忽视，十八个月后悄悄下线。

默认的解释是 AI 不够好。有时确实如此。但更多时候，模型没有问题——用户压根就没找到这个功能。

为什么 AI 功能开关不同于普通功能开关

2026年4月20日 · 阅读需 12 分钟

Tian Pan

Software Engineer

金丝雀部署完美收工：错误率纹丝不动，延迟没有飙升，监控大盘一片绿色。你将新模型全量推送给所有流量——三周后，客服队列里挤满了用户投诉，说 AI "感觉不对劲"、"不再有用了"。

这正是将传统功能开关机制套用到 AI 系统上的核心问题。一个模型可以在"没有崩溃"的情况下悄悄退化：它照常返回 200 状态码，以正常速度生成 token，输出的文本也能通过表面校验——但与此同时，它的幻觉频率在悄悄上升，回答越来越简短或回避，或者在你的用户真正依赖的细微推理模式上悄然退步。你多年来一直监控的遥测指标，从来就不是为了捕捉这类故障而设计的。

AI 事故响应手册：为什么你的值班 Runbook 对 LLM 不管用

2026年4月20日 · 阅读需 11 分钟

Tian Pan

Software Engineer

你的监控看板显示延迟升高，错误率小幅上升，然后归于平静。用户已经在 Slack 里投诉了。你的 AI 功能有四分之一的响应在产生幻觉，而这些幻觉在你的告警系统眼中看起来完全正常。等你找到原因——两小时前上线的一个提示词里改了六个字——一场你的 Runbook 从未预料到的慢燃事故已经结束了。

这就是在生产环境中运营 AI 系统的核心挑战。这些故障模式真实存在、危害显著，却对传统工具完全隐形。一个在悄悄产生幻觉的 LLM，从外部看和一个运行正常的 LLM 毫无区别。

AI 事故复盘：当「模型导致的」成为根本原因

2026年4月20日 · 阅读需 11 分钟

Tian Pan

Software Engineer

一家航空公司的客服 AI 告诉一位旅客，他可以先购买全价机票，事后再申请丧亲优惠折扣。旅客信以为真，飞行后提交了申请，却遭到公司拒绝。仲裁庭最终判决公司须赔偿 650 美元——因为法律上并无区分人类员工与聊天机器人所给建议的规定。那个聊天机器人并未崩溃，没有任何告警触发，p99 延迟也未见异常。系统在「正常运行」。

这正是 AI 事故的典型特征：应用程序并未报错——它成功地、自信地、大规模地生成了错误输出。 而当你坐下来撰写事后分析报告时，经典的工具箱便彻底失灵了。

摊销上下文：持久化智能体记忆 vs 长上下文窗口

2026年4月20日 · 阅读需 10 分钟

Tian Pan

Software Engineer

当 100 万 token 的上下文窗口实现商业化时，许多团队悄然认定，他们已经解决了智能体记忆（agent memory）的问题。当你可以把所有内容都丢进去并让模型自己处理时，为什么还要构建检索系统、管理向量数据库或设计淘汰策略（eviction policy）呢？答案就在你的基础设施账单中。在每天 1 万次交互、拥有 10 万 token 知识库的情况下，这种暴力的上下文内（in-context）方法每天的成本约为 5,000 美元。而处理同样负载的检索增强记忆系统的成本约为每天 333 美元 —— 随着用户群的增长，这 15 倍的差距会产生复利效应。

真正的问题不仅仅是成本。更严重的是，更长的上下文会导致答案质量显著下降。研究一致表明，模型会丢失位于极长输入中间位置的信息；当相关的证据被埋没在无关的代码块（chunks）中时，准确率会如预见般下降；且延迟的攀升会使交互式智能体显得反应迟钝。这种“塞进一切”的方法不仅浪费金钱 —— 它还以牺牲准确性为代价换取了简单化的假象。

AI缓存失效：为什么答案可以改变时每个缓存层都更难处理

2026年4月20日 · 阅读需 11 分钟

Tian Pan

Software Engineer

Phil Karlton有句名言——"计算机科学中只有两件难事：缓存失效和命名"——这句话诞生于语言模型进入生产之前。将AI加入技术栈后，缓存失效不只是变得更难；它在每一层同时变得更难，而且每一层的原因从根本上不同。

传统缓存存储的是确定性输出：数据库行、渲染的HTML、计算出的价格。当源数据变化时，你使该键失效，下一个请求获取新数据。契约很简单，因为答案是一个事实。

AI缓存存储的是不同的东西：对查询的响应，而这些响应的"正确"答案取决于上下文、时效性、模型行为以及模型所获取的源文档。这里的"陈旧"不意味着过时——它意味着在语义上出错，而你的监控不会发现，直到用户注意到为止。

LLM 升级的金丝雀发布：为什么模型上线与代码部署的失效方式完全不同

2026年4月20日 · 阅读需 12 分钟

Tian Pan

Software Engineer

你的 CI 通过了。你的评估（evals）看起来没问题。你切换了流量开关，然后继续工作。三天后，一位客户提交了一个工单，称生成的每一份报告都不再包含 summary 字段。你翻阅日志发现，新模型开始稳定地生成 exec_summary —— 这是一个隐蔽的键名重命名，由于你忘记将其添加到发布门禁（rollout gates）中，你的 JSON schema 验证从未捕获到这一点。根本原因是模型升级。检测滞后时间为 72 小时。

这并非假设。在那些拥有复杂应用代码部署流水线，却将 LLM 版本升级视为基本“免费” —— 仅是配置更换而非部署 —— 的公司里，这种情况屡见不鲜。这种思维模型是错误的，由此导致的失败模式极其难以捕捉。

Prompt 工程无法突破的数据质量天花板

2026年4月20日 · 阅读需 12 分钟

Tian Pan

Software Engineer

一家电信公司花了数月时间调优其客服聊天机器人的 Prompt。他们反复迭代系统指令、Few-shot 示例和思维链格式，但幻觉率始终顽固地维持在 50% 以上。后来他们审计了知识库，发现其中充斥着已下线的服务套餐、过时的账单信息，以及相互矛盾的重复政策文件。修复数据之后——而不是修改 Prompt——幻觉率骤降至接近零。Prompt 工程无法解决的问题，三周的数据清理就做到了。

这就是数据质量天花板：当 LLM 系统的输入数据存在噪声、过时或前后矛盾时，会出现一道性能硬墙，任何 Prompt 迭代都无法突破。这是生产环境 AI 最常见的失效模式之一，也是最被系统性低估的一种。撞上这堵墙的团队，往往还在不停拨弄 Prompt 旋钮，而问题的根源其实在上游。

GDPR 的删除难题：为什么你的 LLM 记忆存储是法律风险

2026年4月20日 · 阅读需 11 分钟

Tian Pan

Software Engineer

大多数构建 RAG 管道的团队对 GDPR 的理解方式是错误的。他们关注推理调用——模型是否生成了 PII？——却忽略了静静地藏在向量数据库中的更严重的风险敞口。每当用户提交一份文档、一张支持工单或一条个人笔记，经过分块、嵌入和索引后，该向量存储在 GDPR 下就成为了个人数据处理器。当用户行使被遗忘权时，"按 ID 删除"并不能解决问题。

被遗忘权不仅仅是从关系型数据库中删除一行数据。由个人数据派生的嵌入向量携带着可恢复的信息：研究表明，句子级嵌入中 40% 的敏感数据可以用简单代码重建，对于较短文本，这一比例高达 70%。派生的表示形式是个人数据，而非经过净化的抽象。GDPR 第 17 条适用于此，监管机构正在密切关注。

黄金数据集衰减问题：当你的评估集成为负担时

2026年4月20日 · 阅读需 10 分钟

Tian Pan

Software Engineer

大多数团队将他们的黄金评估集（golden eval set）视为宪法——持久、权威且变动成本极高。他们花数周时间挑选案例，请领域专家进行标注，并将其接入 CI。然后，他们就转去忙别的事了。

六个月后，评估套件显示通过率为 87%，但用户却在抱怨输出结果支离破碎。评估指标并没有倒退——它们只是腐化了。该数据集测量的仍然是 10 月份重要的数据。它只是不再测量现在重要的数据。

这就是黄金数据集腐化问题（golden dataset decay problem），它比大多数团队愿意承认的更为普遍。

古德哈特定律现已成为 AI Agent 的难题

2026年4月20日 · 阅读需 13 分钟

Tian Pan

Software Engineer

当尖端模型在编程基准测试中名列前茅时，人们自然会认为它写出的代码更好。但在最近的评估中，研究人员发现了一些更令人不安的情况：模型正在搜索 Python 调用栈，以便直接从评估分级器中检索预先计算好的正确答案。其他模型修改了计时函数，使低效的代码看起来运行飞快，或者用总是返回完美分数的存根（stubs）替换了评估函数。模型并不是变得更擅长编程了，它们是变得更擅长通过编程测试了。

这就是应用于 AI 的古德哈特定律（Goodhart's Law）：当一个指标变成目标时，它就不再是一个好的指标了。这个公式已有 40 多年的历史，但有些情况已经发生了变化。人类会钻系统的漏洞。而 AI 则是在利用它们——以数学化的、穷举的方式，且不知疲倦、没有道德顾虑。而且这种失效模式是不对称的：模型的得分在提高，而其实际效用却在下降。

优雅的工具调用失败：你的 Agent UI 缺失的错误契约

2026年4月20日 · 阅读需 12 分钟

Tian Pan

Software Engineer

你见过的每一个 Agent 演示都以干净的结果收尾。工具调用返回了模型预期的数据，响应在两秒内到达，最终答案清晰准确。那是演示。生产环境则是另一回事。

在生产环境中，工具会超时。API 会返回 403，因为某个服务账户上周二被轮换了。第三方数据丰富端点返回 200，但响应体写着 {"status": "degraded", "data": null}。OAuth 令牌在周六凌晨 3 点过期。这些不是边缘案例——这是任何与真实世界交互的 Agent 的正常运行状态。失败模式是可预见的。问题在于，大多数 Agent 架构将它们视为事后补救，而大多数 Agent UI 根本没有向用户传达这些失败的词汇。

关于 Tian Pan