跳到主要内容

61 篇博文 含有标签「ai」

查看所有标签

组织架构问题:为什么 AI 功能会死在团队之间

· 阅读需 11 分钟
Tian Pan
Software Engineer

模型跑通了。流水线运行正常。演示效果很好。然后这个功能就在数据团队的 Slack 频道和产品工程师的 JIRA 看板之间悄然死去。

这是大多数 AI 项目失败背后的规律——不是技术失败,而是组织失败。2025 年的一项调查发现,42% 的公司那年放弃了大多数 AI 项目,而上一年这一比例仅为 17%。每个被放弃的项目平均沉没成本高达 720 万美元。当事后复盘被写出来时,列出的原因是"数据准备不足"、"职责不清"和"缺乏治理"——这三种说法其实是同一件事的不同表达:没有人真正负责把这个功能交付出去。

人设锁定问题:长期 AI 会话如何将用户困在自己的模式中

· 阅读需 9 分钟
Tian Pan
Software Engineer

长期 AI 系统存在一种失效模式,在产品评测中鲜有人提及,却频繁出现在用户行为数据中:人们开始绕过自己的 AI 助手。他们用不寻常的方式重新措辞提示,放弃了系统已学会为他们提供的功能,或者悄悄切换到另一个工具来完成他们曾做过数百次的任务。系统成功了——它学习了——而这恰恰是它停止工作的原因。

这就是人设锁定问题。当 AI 适应你的过去行为时,它正在构建一个训练时期的"你"的模型。随着每次交互,该模型变得越来越自信。最终,它成了一座牢笼。

影子 AI 治理难题:为什么禁止个人 AI 账号会让安全性变差

· 阅读需 9 分钟
Tian Pan
Software Engineer

90% 的公司员工都在使用个人 AI 账号——ChatGPT、Claude、Gemini——来完成工作,而其中 73.8% 的账号是非企业性质的。与此同时,57% 使用未经批准的 AI 工具的员工正在与其共享敏感信息:客户数据、内部文档、代码、法律草案。大多数高管认为他们的政策可以防止这种情况发生。但数据表明,实际上只有 14.4% 的团队部署的 AI 获得了全面的安全批准。

领导层认为正在发生的事情与实际发生的事情之间的差距,就是影子 AI 治理问题。

大多数公司的本能反应是下达禁令。在网络层面封禁个人聊天机器人账号、发布政策备忘录、进行年度培训,并称之为治理。这是最糟糕的应对方式——不是因为担忧是错误的,而是因为这种干预措施在没有缩小问题的同时,反而让问题变得不可见。

物理隔离 LLM 蓝图:无出站流量部署的真正需求

· 阅读需 12 分钟
Tian Pan
Software Engineer

云端 AI 的策略通常建立在一个没有人明确写下来的前提之上:出站 HTTPS (outbound HTTPS)。厂商 API、托管评测器、遥测流水线、模型注册表、向量存储、仪表板 SaaS、密钥管理器——其中的每一个都静默地解析到公网上的一个域名。一旦拔掉这根电缆,整个技术栈并不会优雅降级,而是会直接崩溃。

大多数团队直到那一刻才会发现,他们的架构中存在从未考虑过的出站依赖。一个“微小”的提示词更新可能需要调用托管分类器;评估套件需要通过网络访问 LLM 评测器;可观测性代理会向后端发送数据;模型注册表从 CDN 拉取权重。这些都不是恶意的,也并不罕见。当你忽视了那根电缆时,云原生技术栈本就是这个样子的。

发现的能力:当用户上线了你团队从未规划的功能

· 阅读需 12 分钟
Tian Pan
Software Engineer

一个客户给客服发邮件,询问为什么你的 CRM 智能助手停止起草他们的 NDA 了。你根本不知道你的 CRM 智能助手竟然在起草 NDA。一位资深用户抱怨说,你的客服机器人的他加禄语(Tagalog)翻译质量自上周以来有所下降。你根本不知道你的客服机器人还会他加禄语。一个论坛帖子传播了一个提示词,能将你的代码审查助手变成一个还算凑合的安全扫描器,不到一个季度,你就收到了针对该助手生成结果提交的 CVE 报告。其中的每一项都是一个拥有用户群、业务影响力,但完全没有组织归属的功能——没有评估(eval)、没有 SLA、没有在 UX 中体现、没有列入路线图,而且还有一个隐蔽的、仅为 1 的公交因子(bus factor):那个摸索出这种用法的客户。

当你的产品封装了一个能力范围(capability surface)远超你设定范围的模型时,就会发生这种情况。用户会探索更广阔的能力范围,寻找能解决他们问题的行为,并在这些行为之上构建工作流。然后,当你进行下一次模型升级时,即便你的路线图上没有任何变动,他们也会将其视为一种退化(regression)。你与用户之间的契约不再是你书面写下的那份。它包含了模型碰巧为他们做到的、且你碰巧没有破坏掉的所有事情。

将此视为工程上的意外——“我们会强化提示词,增加护栏,下次我们会捕获到它”——这是一种范畴错误(category error)。“发现的能力”(Found capabilities)是一个产品管理问题。这门学科的核心不在于防止它们发生,而在于检测它们、决定如何处理它们,并记住你曾做出的决定。

没人用的 AI 功能:团队为何交付了无人采用的能力

· 阅读需 10 分钟
Tian Pan
Software Engineer

一家中型项目管理公司的产品副总裁,花了三个季度的工程团队路线图来构建 AI 助手。上线六个月后,每周活跃使用率只有 4%。问她为什么要做:「竞争对手发布了一个,董事会问我们什么时候跟上。」这是一个用产品战略包装起来的恐慌决策——而且这种情况现在到处都是。

4% 不是个例。一个客户成功平台在四个月后,AI 生成通话摘要的采用率是 6%。一个物流 SaaS 添加了 AI 路线优化建议,点击率 11%,实际操作率 2%。一个 HR 平台推出了 AI 政策问答机器人,火了两周,然后跌落至 3% 后趋于平稳。这个规律已经稳定到可以命名了:发布 AI 功能,眼看它被忽视,十八个月后悄悄下线。

默认的解释是 AI 不够好。有时确实如此。但更多时候,模型没有问题——用户压根就没找到这个功能。

AI功能下线手册:如何在不损害信任的前提下淘汰表现不佳的AI

· 阅读需 11 分钟
Tian Pan
Software Engineer

过去三年,工程团队上线的AI功能数量超过了此前十年的总和。但他们几乎没有下线过任何一个。德勤的研究发现,2025年有42%的公司放弃了至少一个AI项目——相比前一年的17%大幅上升——每个被废弃项目的平均沉没成本高达720万美元。然而,那些留在生产环境中的功能往往比被砍掉的更具破坏性:它们缓慢侵蚀用户信任,积累每月复利的技术债,并消耗本可用于有效工作的工程资源。

这种不对称是结构性的。AI功能上线会带来公告、利益相关方的兴奋和团队荣誉。而退场则被视为失败的承认。因此,糟糕的功能不断积累。解决之道不是意志力,而是一套决策框架——让退场成为一种正常、可预期的工程结果,而非组织危机。

AI 事故响应手册:为什么你的值班 Runbook 对 LLM 不管用

· 阅读需 11 分钟
Tian Pan
Software Engineer

你的监控看板显示延迟升高,错误率小幅上升,然后归于平静。用户已经在 Slack 里投诉了。你的 AI 功能有四分之一的响应在产生幻觉,而这些幻觉在你的告警系统眼中看起来完全正常。等你找到原因——两小时前上线的一个提示词里改了六个字——一场你的 Runbook 从未预料到的慢燃事故已经结束了。

这就是在生产环境中运营 AI 系统的核心挑战。这些故障模式真实存在、危害显著,却对传统工具完全隐形。一个在悄悄产生幻觉的 LLM,从外部看和一个运行正常的 LLM 毫无区别。

生产环境 AI 的偏差监测基础设施:超越上线前的审计

· 阅读需 12 分钟
Tian Pan
Software Engineer

你的模型通过了公平性审查。人口统计学平价(demographic parity)在可接受范围内,机会均等指标(equal opportunity metrics)看起来很干净,审计报告也被贴上了绿色的勾,进入了 Confluence。三个月后,一名记者拿出的屏幕截图显示,你的系统对某一人口群体的贷款批准率仅为另一群体的一半——而你发布前的那些数据在技术层面一直都是准确的。

这就是偏差监控的缺口。发布前的公平性测试是根据运行测试时存在的数据集来验证你的模型的。但在生产环境中运行的 AI 系统并不处于那种静态的世界中。用户行为会发生变化,人口分布会产生偏移,特征相关性会演变,而那些在发布时无法衡量的差异可能在几周内演变成严重的失效模式。能够捕捉这些问题的系统,在当今大多数 ML 技术栈中都是缺失的。

组织抗体:为什么AI项目在试点之后走向消亡

· 阅读需 13 分钟
Tian Pan
Software Engineer

演示进行得很顺利。试点运行了六周,展示了清晰的成果,与会的利益相关者印象深刻。然后,什么都没有发生。三个月后,项目悄悄被搁置,构建它的工程师转向了其他事情,公司的AI战略变成了一张写着"探索机会"的幻灯片。

这就是扼杀AI项目的模式。不是技术失败,不是模型能力不足,甚至不是预算问题。技术本身确实有效——研究一再表明,约80%进入生产的AI项目达到或超过了预期目标。问题在于那70-90%从未走到那一步的项目。

AI 编程代理在遗留代码库上的表现:为什么在你最需要它们的地方,它们往往会失败

· 阅读需 12 分钟
Tian Pan
Software Engineer

最迫切需要 AI 编程帮助的团队,通常并不是那些正在构建全新服务(greenfield services)的团队。他们往往正在维护 2012 年产出的 50 万行 Rails 单体应用,或是处理过数十亿笔交易的 COBOL 支付系统,亦或是架构师早在三次收购前就已离职的微服务网格。在这些代码库中,一个位置不当的重构就可能引入隐蔽的数据损坏漏洞,而这些漏洞往往在三周后的生产环境中才会浮现。

而这恰恰是目前的 AI 编程助手(agents)失败得最惨烈的地方。

令人沮丧的是,这种失效模式在爆发前是隐形的。AI 助手生成的代码可以通过编译,通过现有测试,并在审查中看起来非常合理。问题往往出现在预发环境(staging)、深夜的批处理作业,或者是某个客户在月份特定日期才会触发的边缘情况中。

生产环境中的 AI 内容溯源:C2PA、审计轨迹与工程师正在忽视的合规截止日期

· 阅读需 14 分钟
Tian Pan
Software Engineer

当欧盟 AI 法案的透明度义务于 2026 年 8 月 2 日正式生效时,每个为欧盟用户生成合成内容的系统都需要为该内容标注机器可读的溯源信息。大多数构建 AI 产品的工程团队对此有模糊的认知,但真正搭建好所需基础设施以实现合规的团队寥寥无几——而在那些已经实施的团队中,相当一部分只完成了监管要求的一半。

面对"AI 内容溯源"这一命题,业界的主流应对方式是指向 C2PA(内容溯源与真实性联盟标准),然后宣布问题已解决。C2PA 固然重要——它真实存在,正被 Adobe、Google、OpenAI、索尼和三星采用,是业内最接近通用标准的方案。但仅凭 C2PA 实施并不足以满足欧盟 AI 法案第 50 条。它无法在你的 CDN 中存活,也无法阻止恶意行为者为篡改内容生成"可信"的溯源记录。

本文将探讨生产环境中 AI 内容溯源的真实需求——技术栈、失效模式,以及让团队措手不及的合规漏洞。