跳到主要内容

44 篇博文 含有标签「engineering」

查看所有标签

AI 副驾驶 vs. AI 飞行员:基于证据的产品决策框架

· 阅读需 10 分钟
Tian Pan
Software Engineer

每个构建 AI 产品的团队都面临同一个路口:AI 应该为人类提供建议,还是自主行动?这个问题听起来很有哲学意味,但答案实际上是可以量化的——而且弄错代价高昂,往往在上线六个月后才会显现,那时你的覆盖率指标看起来很好,但用户信任分数已经在悄悄崩溃。

Klarna 在 2024 年初用一套自主 AI 系统替换了 700 名客服人员。到 2025 年,CEO 承认他们"走得太远了",并悄悄开始为复杂案例重新招聘人工客服。该 AI 在一个月内处理了 230 万次对话,将问题解决时间从 11 分钟缩短到不到 2 分钟。数字看起来很漂亮。但根本问题——金融产品的客户服务需要同理心和判断力,而不仅仅是解决速度——在所有偏离常规路径的场景中,以下降的满意度形式滞后显现。

从开发到生产的成本冲击:为什么你的 AI 功能在测试环境仅需几分钱,而在生产环境却要花费数美元

· 阅读需 10 分钟
Tian Pan
Software Engineer

一个概念验证(PoC)花费了你 200 美元的 API token。你获得了上线的许可。六周后,账单变成了 18,000 美元。这并非定价变动或计费错误——而是成本建模的失败,也是 AI 工程中最可预见的意外。

AI 功能在预发布(staging)环境和生产环境之间的成本差距并非偶然。它遵循一个一致的模式:预发布环境在结构设计上(通常是无意的)隐藏了生产环境中每一个关键的成本驱动因素。理解这些驱动因素是避免首份账单演变成危机的关键。

组织的免疫系统:为什么公司会扼杀那些确实奏效的 AI 功能

· 阅读需 11 分钟
Tian Pan
Software Engineer

你的 AI 功能运行良好。它通过了你构建的每一项基准测试(benchmark)。它处理了团队花费数周进行压力测试的边缘案例。试点(pilot)用户非常喜欢它。你的模型没有产生幻觉。延迟低于 300ms。评估套件(eval suite)显示全部通过。

然而六个月过去了,它仍未投入生产。法务部门要求再进行三轮审查。一位高级副总裁担心“范围(scope)”问题。拥有相邻工作流所有权的团队表示未被征求意见。财务部门说投资回报率(ROI)模型需要重构。你被告知要“进行更广泛的内部沟通(socialize it more broadly)”。

这就是所谓的组织免疫系统在起作用——它杀死的 AI 项目比糟糕的模型要多得多。

分析 LLM 流水线:推理之外的性能瓶颈

· 阅读需 10 分钟
Tian Pan
Software Engineer

你的团队刚刚花了三周时间优化推理。你们换成了量化模型,调整了批处理策略,成功缩短了 12% 的首字延迟 (TTFT),然后上线了。接着你查看了实际的面向用户的延迟,发现几乎没有变化。

这就是“推理陷阱”。它是 LLM 应用中最常见的性能分析失效模式,其发生的原因是工程师们习惯于测量那些容易测量的指标——GPU 利用率、推理吞吐量、每秒 Token 数 (TPS)——而不是真正缓慢的部分。在一个典型的 RAG 流水线中,如果包含所有涉及 GPU 的环节,推理大约占延迟的 80%。但剩下的 20% 通常分布在六七个没人追踪的阶段中。孤立地看,每一项似乎都很小,但它们共同占据了主要的优化空间。

在 AI 功能感觉准备好之前就发布它

· 阅读需 10 分钟
Tian Pan
Software Engineer

大多数 AI 功能发布延迟,并不是因为它们有缺陷。它们延迟,是因为团队仍在针对一套不能反映真实用户行为的测试集进行优化。每周基准分数都在提升,评估指标持续向好。而"实验室表现"与"生产价值"之间的差距,却在悄悄扩大。

令人不安的事实是:最初的 500 名真实用户,在两周内发现的可操作问题,远比再花四周调优提示词要多。这不是在为发布劣质产品辩护,而是在说:你当前对"准备好了"的判断,几乎肯定是错误校准的——只有真实的使用数据才能纠正它。

双速组织:为什么 AI 团队与产品团队的时钟频率互不兼容

· 阅读需 11 分钟
Tian Pan
Software Engineer

你的 ML 团队进行了一项大有可为的实验。模型在评估集上比基准线高出了 8 个百分点。利益相关者们都很兴奋。然而,交付却花了四个月的时间——等到功能上线时,产品路线图已经发生了变化,提出需求的团队有了不同的优先级,而且由于部署目标在过程中发生了改变,一半的基础设施工作都得重做。听起来很耳熟吗?

这就是“时钟不匹配”问题:AI 团队和产品团队运行在完全不同的时间尺度上,而大多数组织将其视为协作失败,但实际上这是一个架构问题。你无法通过更好的站立会议节奏来修复结构性的不匹配。

何时选择 LLM,何时选择简单启发式规则:四因素决策框架

· 阅读需 10 分钟
Tian Pan
Software Engineer

一家物流公司花费了 80 万美元、历时十二个月,尝试用 AI 优化路线规划。项目结束时,他们的路线效果仅比原有启发式规则略有提升。高管层随后否决了接下来三个 AI 提案。一家外卖公司面临同样的路线问题,却用一套显式业务规则在一个晚上就解决了。

两支团队都学到了一个代价高昂的教训:在实时约束、司机偏好和时间窗口交织的路线优化问题中,AI 并非 正确的解法——这是一个组合调度问题。你想要学习的模式并不隐藏在数据里;它们是运营部门的人早就知道的显式领域逻辑。

这种情况在各行各业不断上演。2025 年麻省理工学院的一项研究发现,95% 的企业 AI 试点项目未能产生任何可衡量的业务影响,尽管总投资高达 300 至 400 亿美元。最主要的失败原因不是模型差或数据不足,而是团队在 AI 根本不是正确工具的问题上构建了 AI 解决方案。

为信任的功能添加 AI:方差如何摧毁你花费多年建立的信任

· 阅读需 13 分钟
Tian Pan
Software Engineer

你最值得信任的功能也是你最危险的 AI 部署目标。这是一个产品团队不断以惨痛代价发现的直觉相反的现实:用户最依赖的功能,那些信任深厚且自动化的功能,恰恰是 AI 引入的变异性(variance)会造成最灾难性信任损害的地方。一个新功能的失败令人失望,而一个现有功能突然变得不可预测则是一种背叛。

这就是 AI 产品改造陷阱(retrofit trap)。陷阱并不在于决定添加 AI——这通常是正确的;陷阱在于认为在成熟功能中添加 AI 比构建新功能更安全,因为你已经拥有了用户。事实上,情况恰恰相反。你花费数月或数年赢得的信任并不是 AI 实验的基础;如果实验失败,它反而会成为一种负担。

AI 功能的“双报纸测试”:捕捉事后复盘中遗漏的失败模式

· 阅读需 10 分钟
Tian Pan
Software Engineer

你的 AI 功能通过了压力测试。达到了延迟 SLA。回滚程序运行正常。成本估算在预算之内。你的 post-mortem 模板每一行旁边都有一个绿色的对勾。

上线两个月后,该产品出现在一篇关于歧视性结果的调查文章中。你花了六周时间进行法律审查。

这就是双重报纸测试旨在弥补的差距。大多数工程团队为技术故障构建了完善的发布前流程——可靠性退化、API 不稳定、基础设施成本飙升。他们阅读有关停机的 post-mortem 并进行相应优化。但第二类 AI 故障能直接穿透这些流程,因为它们看起来不像 bug:功能完全按设计运行,但伤害仍然发生了。

AI 功能回报期:让财务团队不再质疑的 ROI 模型

· 阅读需 11 分钟
Tian Pan
Software Engineer

每个上线 AI 功能的工程团队最终都会碰到同一堵墙:财务部门要看一份证明支出合理性的表格,但你做的那份根本行不通。

问题不在于 AI 功能缺乏 ROI,而在于 AI 的经济逻辑打破了标准 ROI 模型的每一个假设——固定资本、线性成本曲线、可预期的回收时间线。把 AI 支出当作 SaaS 许可费来处理的团队,要么在上线前看到虚高的数字,要么在投产六个月后看着数字崩塌。有计划的 AI 项目(ROI 达 55%)与随意部署的项目(ROI 仅 5.9%)之间近十倍的差距,几乎完全来自于团队是否在上线之前就建立了正确的度量模型。

构建信任修复流程:当你的 AI 犯下显而易见的错误后该怎么办

· 阅读需 11 分钟
Tian Pan
Software Engineer

当 Google 的 AI Overview 建议用户在披萨酱中加胶水,并为了消化健康而吃石头时,这不仅仅是让产品团队蒙羞——它暴露了我们在思考 AI 可靠性方面的系统性鸿沟。失败的原因不仅在于模型错了。失败的原因在于模型在高度受关注的情境下“自信地”犯错,而且没有为被误导的用户提供任何补救路径。

对 AI 系统的信任并非逐渐流失。研究表明,它遵循一种“悬崖式”崩塌模式:一个明显的错误就能导致信任度大幅下降,并产生可衡量的影响。只有 29% 的开发者表示他们信任 AI 工具——尽管采用率攀升至 84%,但这一比例比前一年下降了 11 个百分点。我们正在构建人们虽然在使用但并不信任的系统。当你的产品发布了代表用户行动的智能体 (agentic) 功能时,这种差距就显得至关重要。

本篇文章讨论的是工程师和产品构建者在错误发生“之后”应该做什么——而不仅仅是如何预防错误。

接手 AI 系统审计:如何掌控一个非你亲手构建的 LLM 功能

· 阅读需 12 分钟
Tian Pan
Software Engineer

有人离职了。入职文档上写着“去问 Sarah”,但 Sarah 现在已经在另一家公司了。你正盯着一个 900 行的系统提示词(system prompt),里面有些章节标题写着类似 ## DO NOT REMOVE THIS SECTION 的字样,而你完全不知道如果删掉会发生什么。

这就是“继承的 AI 系统”问题,它与继承常规代码不同。对于遗留代码,意志坚定的工程师可以追踪执行路径、阅读测试,并从行为中重构意图。但对于继承的 LLM 功能,提示词就是逻辑——但它是用自然语言编写的,其失败模式是概率性的,而且作者的意图被困在他们的脑海里。没有堆栈跟踪会告诉你哪个护栏(guardrail)触发了以及为什么触发。