跳到主要内容

25 篇博文 含有标签「machine-learning」

查看所有标签

逆行准确率问题:为什么 AI 功能会随着产品的增长而退化

· 阅读需 12 分钟
Tian Pan
Software Engineer

你的 AI 功能顺利发布。评估集准确率:91%。延迟:可接受。团队深感自豪。六个月后,用户开始抱怨该功能感觉“很笨”,支持工单不断增加,而你的综合指标悄然比发布当天下降了 8%。没有人更改过模型。底层数据流水线完好无损。发生了什么?

这就是逆行准确率问题(The retrograde accuracy problem)。随着产品的增长——新功能、新用户细分、新边缘情况、新流程——你的 AI 在生产环境中看到的输入分布会悄然偏离其训练时的分布。模型没有更新,数据流水线没有故障,而是产品本身的增长超出了模型的能力范围。

何时选择 LLM,何时选择简单启发式规则:四因素决策框架

· 阅读需 10 分钟
Tian Pan
Software Engineer

一家物流公司花费了 80 万美元、历时十二个月,尝试用 AI 优化路线规划。项目结束时,他们的路线效果仅比原有启发式规则略有提升。高管层随后否决了接下来三个 AI 提案。一家外卖公司面临同样的路线问题,却用一套显式业务规则在一个晚上就解决了。

两支团队都学到了一个代价高昂的教训:在实时约束、司机偏好和时间窗口交织的路线优化问题中,AI 并非 正确的解法——这是一个组合调度问题。你想要学习的模式并不隐藏在数据里;它们是运营部门的人早就知道的显式领域逻辑。

这种情况在各行各业不断上演。2025 年麻省理工学院的一项研究发现,95% 的企业 AI 试点项目未能产生任何可衡量的业务影响,尽管总投资高达 300 至 400 亿美元。最主要的失败原因不是模型差或数据不足,而是团队在 AI 根本不是正确工具的问题上构建了 AI 解决方案。

训练数据自中毒:当你的 AI 功能破坏了其自身的基准真相

· 阅读需 11 分钟
Tian Pan
Software Engineer

你的推荐模型在三个月前上线了。点击率增长了 18%。观看时长在不断攀升。仪表盘上一片飘绿。领导层很满意。

而你的模型正在悄悄地破坏它将用于训练下一个版本的数据。

这就是训练数据自中毒(training data self-poisoning):一种反馈循环,其中已部署的 AI 功能会改变用户行为,其方式破坏了模型最初训练时学习的交互数据。最糟糕的是,你的标准参与度指标会告诉你一切正常 —— 直到它们失效的那一刻。

微调数据饱和:为何增加训练样本反而让模型变差

· 阅读需 10 分钟
Tian Pan
Software Engineer

几乎每个经历过初期演示阶段的微调项目,都会重蹈同一个覆辙:团队遭遇质量平台期,决定需要更多数据,增加了 50% 的样本,重新训练,却发现模型要么一如既往地平庸,要么明显变差了。增加数据的直觉对大多数软件问题是对的——更多信号通常有帮助。但微调存在一个预训练所没有的饱和区间,大多数从业者并不能识别自己何时进入了这个区间。

2024 年一项在 Qasper 数据集上测试 LLM 微调的研究发现,将训练集从 500 条扩展到 1,000 条后,Mixtral 的准确率得分从 4.04 跌至 3.28,完整性得分从 3.75 跌至 2.58。这不是超参数问题,而是数据饱和:模型开始记忆分布噪声,而非学习可泛化的模式。团队在引擎已经淹没之后,继续往里加燃油。

个性化画像衰减:当 AI 对用户的认知不再是真实的用户

· 阅读需 11 分钟
Tian Pan
Software Engineer

你的 AI 个性化系统已经学会了用户是谁。它建立了用户画像,调优了向量表示,并给出了令人惊叹的精准推荐。然后,它悄悄地开始欺骗你——不是用错误,而是用过时的"真相"。上个季度痴迷于 Kubernetes 的用户加入了一家初创公司,现在需要了解销售漏斗。买了两年婴儿用品的客户刚刚把最小的孩子送去了幼儿园。你的模型仍然以为自己认识他们,但它并不了解。这就是个性化画像衰减,这是团队只有在用户抱怨 AI"不再懂我"时才会发现的静默失败模式。

第一个 AI 功能难题:为什么你首先交付的内容决定了用户接下来的接受度

· 阅读需 11 分钟
Tian Pan
Software Engineer

大多数团队会先发布他们最大胆的 AI 功能。那个功能通常是他们研发了六个月、演示效果极佳、且让领导层倍感兴奋的作品。但它在生产环境中失败了——算不上灾难性的,但足以让用户感到不安——于是,随之而来的每一个 AI 功能都会继承这种怀疑。即使团队后来修复了最初的问题,接下来的整整一年里,他们依然会纳闷为什么采用率始终停滞不前。

"https://opengraph-image.blockeden.xyz/api/og-tianpan-co?title=%E7%AC%AC%E4%B8%80%E4%B8%AA%20AI%20%E5%8A%9F%E8%83%BD%E7%9A%84%E9%97%AE%E9%A2%98%EF%BC%9A%E4%B8%BA%E4%BB%80%E4%B9%88%E4%BD%A0%E9%A6%96%E5%8F%91%E7%9A%84%E4%BA%A7%E5%93%81%E5%86%B3%E5%AE%9A%E4%BA%86%E7%94%A8%E6%88%B7%E6%8E%A5%E4%B8%8B%E6%9D%A5%E8%83%BD%E6%8E%A5%E5%8F%97%E4%BB%80%E4%B9%88"

这就是“第一个 AI 功能”的问题。你首先发布的内容建立了一个先例,这种影响在技术问题解决很久之后依然存在。用户对 AI 的信任建立在第一次失败之上,而非第一次成功。你发布功能的顺序比任何单一功能的质量都更重要。

人设锁定问题:长期 AI 会话如何将用户困在自己的模式中

· 阅读需 9 分钟
Tian Pan
Software Engineer

长期 AI 系统存在一种失效模式,在产品评测中鲜有人提及,却频繁出现在用户行为数据中:人们开始绕过自己的 AI 助手。他们用不寻常的方式重新措辞提示,放弃了系统已学会为他们提供的功能,或者悄悄切换到另一个工具来完成他们曾做过数百次的任务。系统成功了——它学习了——而这恰恰是它停止工作的原因。

这就是人设锁定问题。当 AI 适应你的过去行为时,它正在构建一个训练时期的"你"的模型。随着每次交互,该模型变得越来越自信。最终,它成了一座牢笼。

生产环境 AI 的偏差监测基础设施:超越上线前的审计

· 阅读需 12 分钟
Tian Pan
Software Engineer

你的模型通过了公平性审查。人口统计学平价(demographic parity)在可接受范围内,机会均等指标(equal opportunity metrics)看起来很干净,审计报告也被贴上了绿色的勾,进入了 Confluence。三个月后,一名记者拿出的屏幕截图显示,你的系统对某一人口群体的贷款批准率仅为另一群体的一半——而你发布前的那些数据在技术层面一直都是准确的。

这就是偏差监控的缺口。发布前的公平性测试是根据运行测试时存在的数据集来验证你的模型的。但在生产环境中运行的 AI 系统并不处于那种静态的世界中。用户行为会发生变化,人口分布会产生偏移,特征相关性会演变,而那些在发布时无法衡量的差异可能在几周内演变成严重的失效模式。能够捕捉这些问题的系统,在当今大多数 ML 技术栈中都是缺失的。

数据飞轮陷阱:为什么你的反馈循环可能在原地空转

· 阅读需 12 分钟
Tian Pan
Software Engineer

每位产品负责人都听过这个论调:更多用户产生更多数据,更好的数据训练更好的模型,更好的模型吸引更多用户。数据飞轮是复利护城河,这正是AI巨头们能够赢得市场的原因。

这个论调并没有错。但实施几乎总是出了问题。在实践中,大多数数据飞轮都有多个泄漏点——反馈循环看似在运转,实际上却在放大偏差、强化陈旧模式,或者优化一个与真实目标背道而驰的代理指标。构建这些系统的工程师很少知道自己遇到的是哪种泄漏,因为所有泄漏从外部看起来都一样:参与度上升,模型在可测量的指标上持续改进,而系统却在难以归因的方式下变得越来越没用。

这就是数据飞轮陷阱。理解其失败模式,是构建真正有效飞轮的前提。

隐藏在你的 AI 安全过滤器中的精确率-召回率权衡

· 阅读需 11 分钟
Tian Pan
Software Engineer

当团队部署 AI 安全过滤器时,对话几乎总是集中在它拦截了什么。它是否拦截了越狱攻击?它是否标记了仇恨言论?它能检测提示词注入吗?对于召回率(Recall)来说,这些都是正确的问题。但它们几乎从未与另一个同样重要的问题挂钩:它错误地拦截了哪些不该拦截的内容?

答案通常是:很多。由于大多数团队在发布时都使用供应商的默认阈值,并且从未在生产环境中对误报(False Positives)进行监测,他们直到用户开始抱怨时才会发现——或者直到用户停止抱怨,因为他们已经停止使用该产品了。

长尾覆盖问题:为什么你的AI系统在最关键的地方失败

· 阅读需 12 分钟
Tian Pan
Software Engineer

某医院部署的医疗AI在测试中达到了97%的准确率。它通过了所有内部审查,顺利上线,然后悄然失败——当寄生虫密度低于1%的细胞时,它无法检测出寄生虫感染,而这恰恰是早期干预最为关键的场景。直到一位医生注意到特定患者群体中异常高的漏诊率,问题才得以浮出水面。

这就是长尾覆盖问题。你的聚合指标看起来很好,但系统在最重要的输入上已经损坏。

为什么 “准确率 92%” 几乎总是一个谎言

· 阅读需 10 分钟
Tian Pan
Software Engineer

你发布了一个 AI 功能。模型在你的留出集(holdout set)上达到了 92% 的准确率。你把这个结果展示给产品 VP、法务团队和客户成功主管。每个人都点头表示认可。功能上线了。

三个月后,一个你没有专门测试过的客户群体正面临 40% 的错误率。法务部门在提问。客户成功团队正在处理升级投诉。产品 VP 想知道为什么没有人预警。

92% 这个数字在技术上是正确的。但在作为决策输入时,它几乎是毫无用处的 —— 因为整体准确率恰恰掩盖了那些最重要的信息。