44 篇博文含有标签「engineering」

组织级古德哈特定律：当团队开始操控 AI 采用率指标

2026年5月5日 · 阅读需 10 分钟

Software Engineer

据一项研究显示，95% 的生成式 AI 试点项目从技术层面来看都算成功——而 74% 使用生成式 AI 的公司至今仍未展现出可量化的业务价值。这两个数字之间的落差并非巧合，而是一个被包装成技术问题的衡量问题。更糟糕的是，大多数组织无法准确诊断这一问题，因为负责衡量的人，恰恰就是被衡量的人。

这就是古德哈特定律（Goodhart's Law）在组织层面的体现：一旦某个 AI 采用率指标成为绩效目标，它就不再能衡量你真正在乎的事情了。指标持续攀升，实际结果却原地踏步甚至每况愈下。

AI 系统设计顾问：它能做对什么、会自信地做错什么，以及如何分辨

2026年5月4日 · 阅读需 10 分钟

Tian Pan

Software Engineer

一个三人团队花了整整一个季度，为一个日活跃用户仅 200 人的应用实现了事件溯源架构。这套架构技术上无懈可击，运维上却是一场噩梦。设计方案来自 AI 的推荐，团队之所以接受，是因为推理听起来流畅、权衡分析看似严谨，而最终构建出来的系统也完全符合高级工程师架构图上的样子。

这个故事如今已成为一种警示性范式，而非孤例。AI 在特定的、可识别的场景下能够提供真正有价值的架构输入——而在从外部看起来几乎相同的情况下，它也会给出自信满满却大错特错的建议。这两者之间的差距，如果你把 AI 当成答案机器，就几乎无从察觉；但如果你把它当成思维伙伴，则完全可以驾驭。

组织架构问题：为什么 AI 功能会死在团队之间

2026年5月4日 · 阅读需 11 分钟

Tian Pan

Software Engineer

模型跑通了。流水线运行正常。演示效果很好。然后这个功能就在数据团队的 Slack 频道和产品工程师的 JIRA 看板之间悄然死去。

这是大多数 AI 项目失败背后的规律——不是技术失败，而是组织失败。2025 年的一项调查发现，42% 的公司那年放弃了大多数 AI 项目，而上一年这一比例仅为 17%。每个被放弃的项目平均沉没成本高达 720 万美元。当事后复盘被写出来时，列出的原因是"数据准备不足"、"职责不清"和"缺乏治理"——这三种说法其实是同一件事的不同表达：没有人真正负责把这个功能交付出去。

输出耦合陷阱：为什么多智能体系统在接口边界处会发生静默失败

2026年5月4日 · 阅读需 11 分钟

Tian Pan

Software Engineer

你的多智能体（multi-agent）流水线运行结束了。没有抛出任何异常。编排器报告成功。然而，答案却是错的，而且错得离谱 —— 执行器跳过了两个步骤，总结器将三个部分合并成了一个风马牛不相及的结论，输出看起来像是完全来自另一个任务。没有堆栈跟踪可以遵循，没有错误代码可以搜索。只有一个悄无声息的错误结果。

这就是输出耦合陷阱（output coupling trap）。这不是模型质量问题，而是接口工程（interface engineering）问题，也是多智能体系统在生产环境中发生隐形故障的首要原因。

没人用的 AI 功能：团队为何交付了无人采用的能力

2026年4月20日 · 阅读需 10 分钟

Tian Pan

Software Engineer

一家中型项目管理公司的产品副总裁，花了三个季度的工程团队路线图来构建 AI 助手。上线六个月后，每周活跃使用率只有 4%。问她为什么要做：「竞争对手发布了一个，董事会问我们什么时候跟上。」这是一个用产品战略包装起来的恐慌决策——而且这种情况现在到处都是。

4% 不是个例。一个客户成功平台在四个月后，AI 生成通话摘要的采用率是 6%。一个物流 SaaS 添加了 AI 路线优化建议，点击率 11%，实际操作率 2%。一个 HR 平台推出了 AI 政策问答机器人，火了两周，然后跌落至 3% 后趋于平稳。这个规律已经稳定到可以命名了：发布 AI 功能，眼看它被忽视，十八个月后悄悄下线。

默认的解释是 AI 不够好。有时确实如此。但更多时候，模型没有问题——用户压根就没找到这个功能。

AI功能下线手册：如何在不损害信任的前提下淘汰表现不佳的AI

2026年4月20日 · 阅读需 11 分钟

Tian Pan

Software Engineer

过去三年，工程团队上线的AI功能数量超过了此前十年的总和。但他们几乎没有下线过任何一个。德勤的研究发现，2025年有42%的公司放弃了至少一个AI项目——相比前一年的17%大幅上升——每个被废弃项目的平均沉没成本高达720万美元。然而，那些留在生产环境中的功能往往比被砍掉的更具破坏性：它们缓慢侵蚀用户信任，积累每月复利的技术债，并消耗本可用于有效工作的工程资源。

这种不对称是结构性的。AI功能上线会带来公告、利益相关方的兴奋和团队荣誉。而退场则被视为失败的承认。因此，糟糕的功能不断积累。解决之道不是意志力，而是一套决策框架——让退场成为一种正常、可预期的工程结果，而非组织危机。

组织抗体：为什么AI项目在试点之后走向消亡

2026年4月20日 · 阅读需 13 分钟

Tian Pan

Software Engineer

演示进行得很顺利。试点运行了六周，展示了清晰的成果，与会的利益相关者印象深刻。然后，什么都没有发生。三个月后，项目悄悄被搁置，构建它的工程师转向了其他事情，公司的AI战略变成了一张写着"探索机会"的幻灯片。

这就是扼杀AI项目的模式。不是技术失败，不是模型能力不足，甚至不是预算问题。技术本身确实有效——研究一再表明，约80%进入生产的AI项目达到或超过了预期目标。问题在于那70-90%从未走到那一步的项目。

AI 功能下线指南：如何停用那些用户几乎不用的功能

2026年4月19日 · 阅读需 13 分钟

Tian Pan

Software Engineer

你的团队在六个月前发布了一项由 AI 驱动的摘要功能。采用率停滞在 8% 的用户。模型调用每月耗资 4,000 美元。构建该功能的工程师已经调到了另一个团队。现在，模型提供商正在涨价。

所有的直觉都在告诉你：砍掉它。但事实证明，停掉一个 AI 功能要比停掉任何其他类型的功能都难得多——大多数团队都是在退役过程中，当合规问题开始出现、核心用户开始反抗时，才以惨痛的方式意识到这一点的。

这是一份在发布功能之前就应该存在的指南，但在你盯着那些明显指向退出的使用率图表时，它最为有用。

LLM 供应商锁定是一个光谱，而非非黑即白

2026年4月19日 · 阅读需 12 分钟

Tian Pan

Software Engineer

一个团队在 GPT-4 上构建了一个生产环境功能。几个月后，出于成本考虑，他们决定评估 Claude。他们花了两周时间进行“迁移”——但核心的 API 替换只花了一个下午。剩下的十天都花在了修复损坏的系统提示词（system prompts）、重新测试拒绝服务的边缘情况、调试由于意外文本而崩溃的 JSON 解析器，以及重新调整在不同供应商之间表现迥异的工具调用模式（tool-calling schemas）。原本以为只是简单的连接器更换，结果迁移预算膨胀成了多层重构。

这就是现实中的 LLM 供应商锁定问题。那些受挫的团队并不是因为选错了供应商——而是因为他们没有意识到锁定存在于多个维度，且每个维度都有不同的风险画像。

提示词考古：从无文档遗留提示词中还原设计意图

2026年4月19日 · 阅读需 10 分钟

Tian Pan

Software Engineer

你加入了一个团队，他们已经在生产环境中运行某个 LLM 功能十八个月了。这个功能运作正常——用户喜欢它，业务也在乎它——但没有人能确切解释这个提示词做了什么，或者为何要这样写。编写它的工程师已经离职。当时讨论它的 Slack 消息埋在某个不复存在的频道里。提示词躺在数据库记录中，长达 900 个 token，没有注释，提交信息除了"更新提示词"什么都没有。

而现在，你被要求去修改它。

这种情况比业界承认的要普遍得多。提示词被当成配置值来对待：写起来很快，代码审查中看不到，一旦跑通就被遗忘。区别在于，配置错误的 feature flag 会立即暴露问题，而配置错误的提示词会在数周内悄悄地降低某些边缘情况的处理质量，直到有人注意到。

AI 个性化的冷启动问题：在拥有数据之前如何提供价值

2026年4月18日 · 阅读需 13 分钟

Tian Pan

Software Engineer

大多数个性化系统是围绕一个飞轮构建的：用户进行互动，你学习他们的偏好，你展示更好的推荐，他们从而进行更多互动。随着数据的积累，飞轮转得越来越快。问题在于，飞轮需要速度才能产生升力——而新用户完全没有速度。

这就是冷启动问题。而且它比大多数团队在首次发布个性化功能时所认识到的更为危险。一个新用户在到达时没有任何历史记录，没有信号，通常还带着怀疑的先验预期：“AI 并不了解我。”你大约有 5 到 15 分钟的时间来证明并非如此，否则他们就会形成一种定论，决定他们是否会留得足够久，以产生那些能让你真正帮助到他们的数据。如果这个窗口期表现糟糕，高达 75% 的新用户会在第一周弃用产品。

冷启动问题不是数据问题，而是初始化问题。工程上的问题是：在缺乏历史记录的情况下，你应该注入什么？

LLM 流水线单体 vs. 链式架构的权衡：任务分解何时有益，何时有害

2026年4月18日 · 阅读需 9 分钟

Tian Pan

Software Engineer

大多数构建 LLM 流水线的团队几乎立刻就会选择链式架构。复杂任务被拆分为多个步骤——提取、分类、摘要、格式化——每个步骤都有自己的提示词。这感觉很自然：更小的提示词更容易编写、调试和迭代。但很少有人会问：链式调用真的比在一次调用中完成所有工作更准确吗？在我见过的大多数代码库中，没有人测量过。

单体 vs. 链式的权衡是 AI 工程中最关键的架构决策之一，但几乎总是凭直觉做出的。本文将梳理实证依据，说明分解何时真正有帮助、何时会悄然使事情变得更糟，以及在生产环境中需要关注哪些信号。

关于 Tian Pan