何时选择 LLM,何时选择简单启发式规则:四因素决策框架
一家物流公司花费了 80 万美元、历时十二个月,尝试用 AI 优化路线规划。项目结束时,他们的路线效果仅比原有启发式规则略有提升。高管层随后否决了接下来三个 AI 提案。一家外卖公司面临同样的路线问题,却用一套显式业务规则在一个晚上就解决了。
两支团队都学到了一个代价高昂的教训:在实时约束、司机偏好和时间窗口交织的路线优化问题中,AI 并非 正确的解法——这是一个组合调度问题。你想要学习的模式并不隐藏在数据里;它们是运营部门的人早就知道的显式领域逻辑。
这种情况在各行各业不断上演。2025 年麻省理工学院的一项研究发现,95% 的企业 AI 试点项目未能产生任何可衡量的业务影响,尽管总投资高达 300 至 400 亿美元。最主要的失败原因不是模型差或数据不足,而是团队在 AI 根本不是正确工具的问题上构建了 AI 解决方案。
"这是 AI 问题吗?"这个问题比看起来难得多。在写一行训练代码或调用一次 LLM 之前,团队需要评估四个不同的因素。跳过这一分析的团队 不仅浪费了工程时间,还会在此后数年内损害组织对 AI 的信任。
因素一:信号质量——数据中是否存在可学习的模式?
最常被忽略的评估是:你想学习的模式是否真正存在于数据中。这听起来显而易见,但失败的方式很隐蔽:你的数据看起来很丰富,开发阶段指标也很好,但到了生产环境,模型却在拟合噪声。
信号质量有两个组成部分。第一,预测性特征是否根本存在。对于用户流失预测,会话深度、功能采用率、支持工单频率等行为信号确实与未来取消订阅相关。但对于约束条件不断变化的路线优化,历史训练数据反映的是某个时间点的交通模式和司机可用性快照,每天都在变化——根本没有足够稳定的信号可以学习。
第二,那些信号是否编码在你实际能访问的数据中。预测客户生命周期价值的模型需要丰富的行为历史,而不只是注册元数据。如果你的数据管道捕获了用户做了什么,却没有捕获为什么,那么当上下文发生变化时,模型学到的相关性就会失效。
实践检验方法:领域专家看几个例子能否一致地给出正确答案?如果可以,并且你能捕获让他们做出判断的特征,那就有信号。如果连专家也说不清楚哪些特征驱动了决策,你大概率是在拟合噪声。
因素二:人类性能上限——"好"是什么样的?
在构建模型之前,你需要一个基准来衡量它。很多团队在这里犯了结构性错误:他们将模型与当前的自动化系统(通常很糟糕)比较,而不是与熟练的人类能达到的水平比较。
人类性能确立了该任务可学习内容的上限。如果专家人类达到 95% 的准确率,说明信号足够强,有学习的价值——同时也给出了努力的目标。如果专家人类只能达到 70% 的一致性,你面对的是一个本质上模糊的任务,即便提取了完美的信号也走不远。
更重要的是,人类性能与当前系统之间的差距告诉你 AI 是否在解决正确的问题。如果人类已经达到 94% 的准确率,而你的自动化系统只有 60%,这不是 AI 问题——这是需求捕获问题:达到人类水平性能的规则还没有被系统化整理。一个正确编码了专家判断的规则系统,以极低的成本就能弥补大部分差距。
这很重要,因为 AI 的杠杆来自于将已学习的模式识别规模化——而不是重新推导专家本来就能写下来的规则。后者是工程问题,不是机器学习问题。
因素三:数据可用性——你有足够的数据可以学习吗?
数据可用性的评估, 不能仅仅停留在"我们有数据",还需要回答三个更具体的问题。
数量:有监督学习通常需要数千个标注样本,模式才能可靠地泛化。对于许多企业用例,这是可以实现的;对于利基的内部工作流,往往做不到。一个实用的经验法则是:标注样本不足几百个时,调优好的规则系统会胜过训练出的模型,且维护成本要低得多。
代表性:训练数据必须反映生产环境中将遇到的输入分布。这比团队预期的更容易出问题。在产品扩张之前用历史交易训练的欺诈检测模型,没有见过新用户群体的行为。用英文文本训练的内容审核模型,一旦用户开始用其他语言发帖就会立即退化。
标注质量:标注噪声对模型的伤害,往往比标注稀少更严重。如果你的训练数据是由本身存在系统性错误的流程标注的——大多数自动化标注管道都是如此——那么模型会忠实地学习这些错误。审查标注质量是枯燥的工作,大多数团队都拖到模型在生产中表现不佳之后才去做。
当这些维度中有任何一个不达标时,阻力最小的路径看起来是收集更多数据、增加更多标注预算或更精细的预处理——这些都会拖延项目,却很少能解决根本问题。
因素四:可逆性——出错的代价有多大?
- https://developers.google.com/machine-learning/problem-framing
- https://developers.google.com/machine-learning/guides/rules-of-ml
- https://eugeneyan.com/writing/first-rule-of-ml/
- https://www.pecan.ai/blog/rule-based-vs-machine-learning-ai-which-produces-better-results/
- https://medium.com/data-science/a-case-for-heuristics-why-simple-solutions-often-win-in-data-science-a31967766daa
- https://www.techtarget.com/searchenterpriseai/feature/How-to-choose-between-a-rules-based-vs-machine-learning-system
- https://invisibletech.ai/blog/how-small-language-models-can-outperform-llms
- https://towardsdatascience.com/critical-mistakes-companies-make-when-integrating-ai-ml-into-their-processes/
