跳到主要内容

75 篇博文 含有标签「ai」

查看所有标签

AI 功能的“双报纸测试”:捕捉事后复盘中遗漏的失败模式

· 阅读需 10 分钟
Tian Pan
Software Engineer

你的 AI 功能通过了压力测试。达到了延迟 SLA。回滚程序运行正常。成本估算在预算之内。你的 post-mortem 模板每一行旁边都有一个绿色的对勾。

上线两个月后,该产品出现在一篇关于歧视性结果的调查文章中。你花了六周时间进行法律审查。

这就是双重报纸测试旨在弥补的差距。大多数工程团队为技术故障构建了完善的发布前流程——可靠性退化、API 不稳定、基础设施成本飙升。他们阅读有关停机的 post-mortem 并进行相应优化。但第二类 AI 故障能直接穿透这些流程,因为它们看起来不像 bug:功能完全按设计运行,但伤害仍然发生了。

AI 智能体的黄金路径:平台团队如何在不成为瓶颈的前提下推动落地

· 阅读需 12 分钟
Tian Pan
Software Engineer

AI 平台团队最常见的失败模式不是技术问题,而是组织问题:中央平台团队成了每个产品团队将 AI 能力推上生产的必经关卡。请求队列不断增长,交付周期从几天膨胀到几周。产品团队愈发沮丧,开始拼凑非官方的绕道方案——硬编码 API 密钥、私下接入 LLM、用个人信用卡注册供应商账户。等平台团队察觉时,组织里已有一半的 AI 工作游离在任何治理体系之外。

问题不在于平台团队关心治理,而在于他们把治理实现成了审批流程,而非基础设施。

AI 功能回报期:让财务团队不再质疑的 ROI 模型

· 阅读需 11 分钟
Tian Pan
Software Engineer

每个上线 AI 功能的工程团队最终都会碰到同一堵墙:财务部门要看一份证明支出合理性的表格,但你做的那份根本行不通。

问题不在于 AI 功能缺乏 ROI,而在于 AI 的经济逻辑打破了标准 ROI 模型的每一个假设——固定资本、线性成本曲线、可预期的回收时间线。把 AI 支出当作 SaaS 许可费来处理的团队,要么在上线前看到虚高的数字,要么在投产六个月后看着数字崩塌。有计划的 AI 项目(ROI 达 55%)与随意部署的项目(ROI 仅 5.9%)之间近十倍的差距,几乎完全来自于团队是否在上线之前就建立了正确的度量模型。

AI 如同永久实习生:企业工作流中的角色-任务鸿沟

· 阅读需 10 分钟
Tian Pan
Software Engineer

几乎每一次企业 AI 部署中都会出现同一种模式:工具在演示中表现出色,上线生产后却悄然止步于 70–80% 的潜力。团队将其归咎于模型质量、上下文窗口限制或检索失效。然而大多数情况下,这个诊断是错的。真正的问题在于:他们要求 AI 扮演一个它在结构上无法胜任的角色——至少目前如此,也许永远如此。

"AI 能完成这项任务"与"AI 能胜任这个角色"之间的鸿沟,是企业 AI 领域最昂贵的误解。

构建信任修复流程:当你的 AI 犯下显而易见的错误后该怎么办

· 阅读需 11 分钟
Tian Pan
Software Engineer

当 Google 的 AI Overview 建议用户在披萨酱中加胶水,并为了消化健康而吃石头时,这不仅仅是让产品团队蒙羞——它暴露了我们在思考 AI 可靠性方面的系统性鸿沟。失败的原因不仅在于模型错了。失败的原因在于模型在高度受关注的情境下“自信地”犯错,而且没有为被误导的用户提供任何补救路径。

对 AI 系统的信任并非逐渐流失。研究表明,它遵循一种“悬崖式”崩塌模式:一个明显的错误就能导致信任度大幅下降,并产生可衡量的影响。只有 29% 的开发者表示他们信任 AI 工具——尽管采用率攀升至 84%,但这一比例比前一年下降了 11 个百分点。我们正在构建人们虽然在使用但并不信任的系统。当你的产品发布了代表用户行动的智能体 (agentic) 功能时,这种差距就显得至关重要。

本篇文章讨论的是工程师和产品构建者在错误发生“之后”应该做什么——而不仅仅是如何预防错误。

上下文限制是一个 UX 问题:为什么静默截断会侵蚀用户信任

· 阅读需 9 分钟
Tian Pan
Software Engineer

用户与 AI 助手进行了一个小时的长代码会话。他们建立了规范,分享了代码库上下文,并详细描述了一个多文件重构方案。接着,在第 40 条消息左右,AI 开始给出忽略其“已知”一切的建议。它推荐了一个用户二十分钟前已经拒绝的方案。当被追问时,它显得很困惑。

没有显示任何错误。没有出现任何警告。模型只是静默地丢弃了较早的消息,以为新消息腾出空间——而用户得出的结论是,该 AI 不可靠。

这不是模型失败。这是产品设计失败。

AI功能的隐性税:你的推理账单没有告诉你的事

· 阅读需 11 分钟
Tian Pan
Software Engineer

当工程师推介AI功能时,成本讨论几乎总是围绕推理API展开。每个token多少钱?按预期调用量估算每月费用是多少?能否争取到批量折扣?这是一个错误的对话——或者至少是不完整的。

在实践中,推理账单大约占运行一个成熟AI功能实际成本的20-30%。其余成本分散在一系列不会出现在LLM提供商发票上的支出中:检索管道依赖的向量数据库、填充它的嵌入任务、捕捉静默失败的可观测性平台、验证模型输出的人工审核员,以及花费数周调整提示让一切正常运转的工程师。团队通常在上线六个月后才发现这一点——当他们试图解释一个比预测高出3-5倍的成本中心时。

组织级古德哈特定律:当团队开始操控 AI 采用率指标

· 阅读需 10 分钟
Tian Pan
Software Engineer

据一项研究显示,95% 的生成式 AI 试点项目从技术层面来看都算成功——而 74% 使用生成式 AI 的公司至今仍未展现出可量化的业务价值。这两个数字之间的落差并非巧合,而是一个被包装成技术问题的衡量问题。更糟糕的是,大多数组织无法准确诊断这一问题,因为负责衡量的人,恰恰就是被衡量的人。

这就是古德哈特定律(Goodhart's Law)在组织层面的体现:一旦某个 AI 采用率指标成为绩效目标,它就不再能衡量你真正在乎的事情了。指标持续攀升,实际结果却原地踏步甚至每况愈下。

提示词契约测试:多智能体团队如何协同而不互相破坏

· 阅读需 11 分钟
Tian Pan
Software Engineer

当两个微服务在API假设上出现偏差时,集成测试会在上线前捕获问题。当两个智能体在提示词假设上出现偏差时,你只会在客户收到自相矛盾的答案——或者整条流水线因级联故障崩溃——时才会发现。多智能体AI系统在生产环境中的失败率高达41%–87%。这些失败中超过三分之一并非模型质量问题,而是协调故障:某个智能体改变了输出格式,另一个智能体仍然期望旧的数据结构,而没有人为此写过测试。

根本问题在于,智能体之间通过隐式契约进行通信。一个研究型智能体——在某人的心智模型中——约定返回带有 sources 数组的JSON对象。编排型智能体依赖这个结构。没有人把它写下来,没有人测试它。六周后,研究型智能体的提示词被优化为返回排名列表而非 sources 数组,编排型智能体就悄无声息地丢失了一半输入。

AI 系统设计顾问:它能做对什么、会自信地做错什么,以及如何分辨

· 阅读需 10 分钟
Tian Pan
Software Engineer

一个三人团队花了整整一个季度,为一个日活跃用户仅 200 人的应用实现了事件溯源架构。这套架构技术上无懈可击,运维上却是一场噩梦。设计方案来自 AI 的推荐,团队之所以接受,是因为推理听起来流畅、权衡分析看似严谨,而最终构建出来的系统也完全符合高级工程师架构图上的样子。

这个故事如今已成为一种警示性范式,而非孤例。AI 在特定的、可识别的场景下能够提供真正有价值的架构输入——而在从外部看起来几乎相同的情况下,它也会给出自信满满却大错特错的建议。这两者之间的差距,如果你把 AI 当成答案机器,就几乎无从察觉;但如果你把它当成思维伙伴,则完全可以驾驭。

预算倒置陷阱:为什么你最重要的AI功能却在用最便宜的推理模型

· 阅读需 9 分钟
Tian Pan
Software Engineer

大多数团队通过将更便宜的查询路由到更便宜的模型来优化AI推理成本。这听起来合理——但实际上是本末倒置的。首先被降级到廉价模型的查询,并不是那些简单的。恰恰相反,它们是复杂的查询,因为这些才是FinOps仪表盘标记出来的昂贵查询。

结果是:你的合同续签工作流——那个负责敲定六位数交易的关键环节——却在一个会产生幻觉、捏造条款引用的模型上运行。而你的客户支持分类——真正低风险的入门级任务——却享受着顶级模型的待遇,仅仅因为还没有人抱怨过它。

这就是预算倒置陷阱。它的产生并非源于疏忽,而是在没有价值背景的情况下单纯施加成本压力所带来的可预见结果。

共同演化陷阱:AI 功能的成功如何正在悄悄破坏其评估体系

· 阅读需 10 分钟
Tian Pan
Software Engineer

你的 AI 功能上线了。它运行良好。用户正在使用。满意度评分在上升。你回头运行了原始的评估套件——依然是绿灯。六个月后,某些事情悄然出了问题,但你的仪表盘还没有显示出来。

这就是协同演化陷阱(co-evolution trap)。在你的 AI 功能部署的那一刻,它就开始改变使用它的用户。他们调整工作流、措辞和预期。这种适应使得你的功能实际处理的输入分布与发布时测量的分布产生偏离。评估套件保持绿灯,是因为它停留在部署前的世界。现实世界的表现以评估套件从未捕捉到的方式发生了漂移。